1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học dữ liệu: Xây dựng mô hình nhận diện xu hướng trên mạng xã hội dựa vào hashtag

58 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng mô hình nhận diện xu hướng trên mạng xã hội dựa vào hashtag
Tác giả Bùi Hồng Thiện
Người hướng dẫn ThS. Nguyễn Thị Anh Thư
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Khoa học Dữ liệu
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 58
Dung lượng 22,07 MB

Nội dung

Nhận diện được xu hướng sắp diễn ra dựa trên các hashtag sẽ đem lại một lợi thếkhông thé đo đếm được đối với các lĩnh vực phải thay đối liên tục theo xu théchung, đặc biệt là trong các l

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HQC CONG NGHE THONG TIN KHOA KHOA HOC VA KY THUAT THONG TIN

BUI HONG THIÊN — 19520970

KHOA LUAN TOT NGHIEP

XAY DUNG MO HINH NHAN DIEN XU HUONG

TREN MẠNG XA HOI DỰA VÀO HASHTAG

BUILDING A MODEL TO IDENTIFY TRENDS ON SOCIAL

MEDIA BASED ON HASHTAGS

CU NHÂN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

ThS NGUYEN THI ANH THU’

TP HO CHÍ MINH, 2023

Trang 2

LỜI CẢM ƠN

Đầu tiên cho em giành sự biết ơn sâu sắc nhất đến với Cô ThS Nguyễn Thị Anh

Thư Trong thời gian qua, không chỉ cho em sự quan tâm và hỗ trợ, Cô còn là một

người hướng dẫn, một người tiếp thêm cho em nhiều kiến thức và động lực để hoàn

thiện bản thân trong chặng hành hình học tập và làm việc tại trường Đại học Công

nghệ Thông Tin — Đại học quốc gia thành phó Hỗ Chí Minh.

Em rat cảm ơn Cô vì luôn sẵn sàng lắng nghe những van đề mà em gặp phải, kể ca những vấn dé do em tạo ra Cô luôn cho em một một cái nhìn khách quan và bao dung nhất, những hướng dẫn của Cô giúp em nhìn ra được những lỗ hồng của bản

thân, thấu hiểu được nguyên nhân tạo ra vấn đề Với những sự chỉ dẫn đó mà em có

thể hoàn thiện hơn đề tài nghiên cứu của em Bản thân là một sinh viên được hướng dẫn, em rất né phục nên tảng kiến thức sâu rộng và hiểu biết to lớn được Cô chia sẻ

trong quá trình hướng dẫn Đó là những giá trị mà không thể đo đếm được, vì ngoài

những về mặt học thuật với những kiến thức ra thì Cô còn giúp em ngộ ra được nhiều khía cạnh trong việc thực hiện một dự án, giữ vững chính kiến của bản thân.

Trong quá trình thực hiện, em cũng xin chân thành gửi đến các thầy cô của Khoa Khoa học và Kỹ thuật Thông tin đã hỗ trợ cho em rất nhiều trong quá trình hoàn

thành khoá luận tốt nghiệp này.

Lời cuối cùng thì, em xin gửi lời cảm ơn chân thành nhất đến Cô Thư, các giảng

viên trong khoa, gia đình, bạn bè đã luôn là những người cho em những sự ủng hộ

và động lực to nhất trong quá trình thực hiện khoá luận tốt nghiệp này.

Thành phó Hồ Chí Minh, tháng 7 năm 2023

Sinh viên thực hiện

Bùi Hồng Thiên

Trang 3

MỤC LỤC

DANH MUC BANG c7 4+1H)L)H) ÔÒỎ 7

Chương 1 TONG QUAN 22222¿22222+2222211222221112221112 2211112221 1 1.1 Lý do chọn để ti socccecccscecssssssecssssssessssssessssssusssssssecessssusseessseestsssiesesssseeesessees 1

1.2 Định nghĩa bài toán - ¿+ 1v vn ng vry 3

1.5 Mục đích nghiên cứu -¿ 5252522222 re 7

1.6 Đối tượng, phạm vi nghiên cứu

Chương 2 CÁC HƯỚNG NGHIÊN CUU -2 ©2¿+222+2z222E+zzzerxseez 9

2.1 Nghiên cứu mối quan hệ giữa hashtag với người dùng - 9

2.2 Phân tích ngôn ngữ tự nhiÊn - ¿+ k+eE‡EkEEkekEEEkEkrkekereree 20

2.3 Nghiên cứu về tính lan truyền của hashtag trong môi trường mạng xã hội 20

Chương 3 CƠ SỞ LÝ THUYÉT -2¿¿222E+2+22EEESE2EE2EE2EEEEEeerrrrrrcee 23

3.1 Mô hình Support Vector Machine -¿- ¿+ S+ xxx rvterrkekrkrkrkree 23

3.2 Mô hình Decision Tree ¿+ cccxrrttrtrterrrrerrerrrrrrrrrrrrerirrrree 23

3.3 Mô hình Random FOres( -. 5522 2x‡stteeexerxerrrrerrrrrrrerrrrrrrer 23

3.4 Mô hình Logistic R€gr€sSiOH - - 5c St 24

3.5 Mô hình Gradient Boosting - «+ 24

Trang 4

3.6 Mô hình Naive Bayes «St HH re 24

3.7 Mô hình K-Nearest Neighbor

Chương 4 PHƯƠNG PHAP DE XUẤTT 22:222+++22222z222vvversrrvscee 27 4.1 Y tưởng ban đầu

4.2 Mô hình tổng quát -22:¿+2222E2222++222222EEE22trtEEEEEkrrrrrrrrrrrrrree 29

Chương 5 THỰC NGHIỆM

5.1 Bộ dữ liệu thực nghiệm 6-6555 Scseseserererrtsrerererrrrrrrereerree 2

5.1.I — Tiền xử lý dữ liệu.

5.1.2 Quy trình tiền xử lý dữ liệu - -ccc5ccvscrcccrvecrrrrrsree 32

5.1.3 Sinh bộ dữ liệu mới c++c+c+eccerkerrrrererkerteee 36

5.2 Độ đo đánh giá - cv tt HH Hư 40

5.2.l ACCUTACY SCOF ĂằĂ Soi 40

5.2.2 Precis6f me NET, vượm , ì.ììì oi 41

5.2.3 Regal gasses +++ MOO aaa V 42

5.2.4 EI-SCOFe HH 43

5.3 Phương pháp thực nghiệm - - + ¿56 +S£+£‡E*k‡keEEEerrkrkekrrerrrkree 44

5.3.1 Các phương pháp sẽ được áp dụng ¿- - - «cv 44

5.3.3 Huấn luyện mô hình phân lớp -++z++2vvvvvcczzz+rr 44

5.4 Kết quả thực nghiệm phân lớp -2¿22+++++22E++z+ttrvxvrrerrrseerrrg 44

5.5 Hashtag sẽ trở thành xu hướng - - + + ++++x+x+xervrkrverererrxrversrrrere 45

5.6 DEMO SH HH HH Hàn 52

5.6.1 Cách hệ thống vận hành -cccc:+++22cxxvvrrrrrrrrrrrrrrrrrrrrer 52

5.6.2 Streami( c kh tt TH HH Hy 53

Trang 5

Chương 6 TONG KET

6.1 Két h8 11 a5 6.2 Hướng phat triỀn -:- + + £+SE+EEE£EEEEEEEEEEEEEE2E121121121E 211111111,

Trang 6

Hình 1-1:

Hình 4-1:

Hình 5-1:

Hình 5-2:

Hình 5-3:

Hình 5-4:

Hình 5-5:

Hình 5-6 :

Hình 5-7:

DANH MỤC HÌNH

Mô hình hoá việc tim các hashtag sé trở thành xu hướng từ các tweet l6

FrAMEWOTPK Đài ÍOÁÏ cv HH ru 28

Dữ liệu sốc ;/7058178:/77/1-PP00 7000088 31

Diễn giải cho các thành phần trong công thức tính . - 40

Ví dụ về cách tính ACCULACY 00n0nn88Ẻe« Ả Ban 40 Kết quả hiệu suất nhận diện cua mô hình bằng độ do Accurdey 46

Kết quả hiệu suất nhận diện của mô hình bằng độ do Precison 47

Kết quả hiệu suất nhận diện của mô hình bằng độ do Recall 48

Kết quả hiệu suất nhận diện của mô hình bằng độ do F-1 Score 49

Hình 5-8 Tổng quan độ chính xác của các mô hình qua từng giai đoạn thời gian .50 Hình 5-9: Thời gian triển khai của mô hình theo từng khoảng thời gian huấn luyện — Ô CC ‹<“đ Ố ố h ố.ố 51

Hình 5-10: Mô hình thể hiện cách vận chuyển của ludng dit liệu - 52

Hình 5-11 Giao diện xác thực của ÏOCd̆IMHHeGÏ - c5 55553 ‡++vE+seev+ssexs 54

Trang 7

DANH MỤC BANG

Bang 2-1: Các hướng nghiên cứu liên quan đến hashtag 75-55c55c552 21

Bảng 5-1: Chi tiết về bộ dit liỆU OC ceeceecescssscsssssessesseseesesssesessessessessesvesesessessesnesnease 30 Bảng 5-2: Quy tắc tién xử lý dit WCU ceceecceccescessesseesessessesssessesseesesssessessessessesseeseeseees 32

Bang 5-3: Thông tin về các cột và cách xử VY ceccecceccsscsssessessessessesessessssseseeseeseesessessees 33

Bảng 5-4: Sample của DG Cy cv kg HH, 36

Bảng 5-6: Bảng hệ số tương quan giữa các cột với biến mục tiêu -: 38

Bảng 5-5: Dữ liệu sau khi qua bước tién xử lý dữ liệu - 2-55 5ccccccscssce2 38 Bang 5-7: Kết quả hiệu suất nhận diện của mô hình bằng độ do Accuraey 46

Bảng 5-8: Kết quả hiệu suất nhận diện của mô hình bằng độ do Precision 47

Bang 5-9: Kết quả hiệu suất nhận diện của mô hình bang độ do Recall 48

Bảng 5-10: Kế quả hiệu suất nhận diện của mô hình bằng độ do F-1 Score 49

Bảng 5-11: Tổng kết độ chỉnh xác của mô hình và tốc độ theo khoảng thời gian 51

Trang 8

DANH MỤC TỪ VIET TAT

Thuật ngữ Được viết tắt

Support Vector Machine SVM

Trang 9

TÓM TẮT KHÓA LUẬN

Ngày nay, việc truyền tải các thông điệp ngắn gọn dan trở thành một xu thế với

hàng hà sa số các nội dụng được đăng tải trên các nền tảng với đa dạng các nội dung

và chủ đề Và thực tế mọi thứ đều có cách vận hành của riêng nó, một nội dung nếu

đăng lên một cách ngẫu hứng sẽ rất khó thu hút sự chú ý với những nguời khác Đốivới người dùng cơ bản thì có thể họ chỉ để ý đến việc những mối quan hệ trongvòng bạn bè của họ là được và việc không có quá nhiều tương tác cũng không cóquá nhiều ảnh hưởng Tuy nhiên, đối với những người kinh doanh, quảng bá hìnhảnh, truyền tải nội dung trên mạng xã hội, thì việc nội dung của họ không được lên

xu hướng là cả một vấn đề có thé ảnh hưởng đến tài chính, động lực và hình ảnh của

họ.

Twitter là một trong những nền tảng mạng xã hội rất nôi tiếng về việc truyền tải cácnội dung ngắn Với lượng người dùng khong lồ, đây là noi hàng triệu thôngđiệp(tweet) được tạo ra theo chủ đề yêu thích của họ liên tục theo thời gian thực

Hầu hết các tweet đều được sử dụng cùng với hashtag Theo quy luật vận hành củanền tảng thì một số hashtag sẽ trở nên thông dung và phổ biến trong một khoảng

thời gian ngắn và có thé ứng dụng được trong nhiều việc khác nhau, bao gồmkhuyến nghị nội dung theo chủ đề, tiếp thị và các chiến dịch quảng cáo Trong tìnhhuống này này thì nhóm hướng đến việc dự đoán hashtag nào sẽ trở thành xu hướngtrên Twiter Đây cũng là một thách thức là làm sao thích ứng với sự biến đổi liên

tục của nền tảng này

Tuy nhiên, thuật toán chính xác mà Twitter dùng để xác dịnh một chủ đề trở thành

xu hướng vẫn chưa được công khai Trong khoá luận này, nhóm hướng đến việc sửdụng thông tin của mỗi dòng “tweet để nhận diện các hashtag sẽ trở thành xu hướngtrên Twitter trong tương lai gần Nhóm sẽ tiến hành đề xuất phương pháp nhận diện

dưới dạng một bài toán phân lớp nhị phân, với công việc là bóc tách và tìm hiểu ýnghĩa của từng đặc trưng dé phân biệt là hashtag nào sẽ trở thành xu hướng hay

không Bằng mô hình máy học phù hợp, Random Forest(RF) thì đã đưa lại một kết

Trang 10

quả khá khả quan theo độ đo F-1 score trong việc nhận dạng các hashtag có thể lên

xu hướng.

Từ khoá: Twitter’s hashtag, Random forest — rừng ngẫu nhiên, Social network

-mang xã hội, Data science — khoa hoc dữ liệu, trending — xu hướng, predicting trends — dự đoán xu hướng, Twitter

10

Trang 11

Chương 1 TONG QUAN

1.1 Lý do chon dé tai

Trong thời đại mà moi thứ có thé thay đổi rat nhanh Việc chia sẻ các nội dung ngăn

trên các nền tảng truyền tải thông tin trực tuyến là xu thé tất yếu Và việc nhận diện

ra được các xu hướng sắp xảy ra sớm sẽ đem lại một lợi thế cực lớn, đặc biệt là đổivới những cá nhân, tô chức thuộc các lĩnh vực có nhu cầu phải thay đổi liên tục theo

xu thế

Twitter là một nền tảng chia sẻ nội dung ngắn, là nơi người dùng có thé truyén tảicác tweet Mỗi tweet sẽ có các thông số định danh, thông tin của người đăng, thờiđiểm đăng bài, số lượt yêu thích bài viết, số người theo doi người đăng bài, số lượt

đăng lại, Và bat cứ ai khi chia sẻ các nội dung có ý nghĩa tương tự thì có thé thêm

hashtag vào tweet của ho Hashtag được sử dụng bang cách thêm dấu thăng ‘#’ phía

trước một chuỗi kí tự không có khoảng trang mà họ muốn Hashtag thường được

tạo ra bởi một số tô chức, cá nhân, được dùng để đánh dấu những bài viết được sửdụng nó có liên quan đến van đề mà người tạo ra nó hướng đến và nếu coi hashtag

là một chủ đề cũng không có vấn đề Dựa vào đó thì người dùng có thể truy cập đến

các tweet có cùng một chủ đê.

Nhận diện được xu hướng sắp diễn ra dựa trên các hashtag sẽ đem lại một lợi thếkhông thé đo đếm được đối với các lĩnh vực phải thay đối liên tục theo xu théchung, đặc biệt là trong các lĩnh vực liên quan đến nghiên cứu, phân tích, tiếp thị,

quản lý doanh nghiệp Điều này giúp hỗ trợ đưa ra các những con đường đúng đắn

về phát triển sản phẩm, phương hướng kinh doanh, tiếp thị, thực thi các chính sách

mới vả rât nhiêu ngành nghê và lĩnh vực khác.

Trong lĩnh vực nghiên cứu, việc bóc tách đặc trưng thông tin trên mạng xã hội là

một cách dé có góc nhìn đa chiều hơn về các lĩnh vực Các tweet có thé khai thác

một cách khá thoải mái và các nhà nghiên cứu có thé tổng hop các ý kiến của nhiều

nhóm cá thể về các góc nhìn liên quan đến vấn đề nổi cộm trong xã hội về các lĩnh

vực đời sông và văn hoá Ngoài ra kêt quả có thê giúp cho các người có trách nhiệm

11

Trang 12

có được thông tin quan trọng và kip thời, nhờ đó có thé đưa ra những quyết định có

xác suât thành công cao hơn.

Về mặt phân tích, các tweet là nguồn tài nguyên đồi dào và đủ lớn để thực hiện

đánh giá về thị trường Dựa vào việc phân tích các thông điệp được truyền tải bởimột quan thé đủ lớn, phân tích viên có thé nhận định về các van đề có thé diễn ra

trong thời gian tới và hầu hết các doanh nghiệp đều cạnh tranh với nhau bằng thôngtin này Vì thế có thể dựa vào kết quả này cho thấy một góc nhìn toàn cảnh cho banlãnh đạo đề có thể đưa ra các biện pháp thích hợp cho giai đoạn đó

Còn trong lĩnh vực liên quan đến doanh nghiệp, việc nhận diện được trước nhữngvan đề sẽ trở nên phổ biến trong tương lai là một xu thé tất yếu trong xã hội hiệnnay Việc một công ty không đi theo con đường này có thé dẫn đến các van đề như

là các chiến dịch đề ra không đem lại quá nhiều lợi ích và có thể thua lỗ Việc có thê

hiểu rõ được nhu cầu và mong muốn sắp tới của khách hàng có thể giúp các doanhnghiệp đón đầu và đề ra được các giải pháp kinh doanh phù hợp và có thể sẽ mangđến lợi nhuận ngoài mong đợi Ngoài ra nó cũng có thé hỗ trợ cho việc điều chỉnhquá trình tạo ra sản phâm Cuối cùng người ding sẽ là người được hưởng lợi và mối

quan hệ giữa người dùng và doanh nghiệp sẽ được đưa lên tâm cao mới.

Ngoài ra, việc nhận diện xu hướng dựa trên các tweet còn có tác dụng trong lĩnh

vực tiếp thị Những chuyên viên có thể cùng quan sát các tweet liên quan đếnthương hiệu của mình, áp dụng thêm các kiến thức liên quan đến ngành nghề mà có

thé đưa ra các hành động phù hợp với doanh nghiệp va đáp ứng nguyện vọng củangười dùng Ngoài ra, dựa vào những gì quan sát được thì có thê đánh giá độ thànhcông của một chiến dịch quảng cáo, đưa ra những thay đổi, sáng tạo ra những nội

dung phù hợp với người dùng.

Tóm lại, việc xác định các hashtag sẽ trở thành xu hướng dựa trên tweet có tác dụng

lớn trong nhiều lĩnh vực Nó giúp đưa ra thông tin và kiến thức có giá trị tham khảo

cao do đó nhóm đã lựa chọn vấn đề này để thực hiện khoá luận tốt nghiệp

12

Trang 13

1.2 Định nghĩa bài toán

Với dit liệu là các tweet trên Twitter được tải về Van đề được đặt ra làm sao dé tìm

ra những hashtag có khả năng trở thành xu hướng trong thời gian gần

1.2.1 Xu hướng

Xu hướng là sự thay đổi hoặc di chuyên chung của một hệ thống, một nhóm con

người hoặc một lĩnh vực cụ thể trong một khoảng thời gian nhất định Nó thườngbiểu hiện qua sự thay đôi trong suy nghĩ, hành vi, hoặc ưu tiên của một nhóm lớnngười dùng chung một nguyên tắc hoặc ý tưởng

Nhóm sé nói rõ hơn về một số thông tin trên xu hướng của Twitter (Twitter’s trend)

Twitter’s trend được tạo ra một cách tự động từ các thuật toán của Twitter Dựa trên

nguyên tắc xác định hashtag lên xu hướng là số lượng sử dụng nhiều hơn ở hiện tại

so với số lượng trong khoảng thời gian ngắn trước đó Thuật toán của Twitter xác

định xu hướng dựa trên sự gia tăng bùng né của số lượt sử dụng mà không phải là

sự gia tăng đều đặn theo thời gian Có thé hiểu theo một cách khác xu hướng củaTwitter liên quan đến sự gia tăng của khối lượng thông tin và thời gian sinh ra củalượng thông tin đó Ví dụ là lượng tăng trưởng về số lượng sử dụng hashtag trongmột ngày lớn thì có thê được xem là xu hướng nhưng nếu nó đều đặn trong vòng 30ngày chỉ được xem là hashtag đó được sử dụng nhiều mà thôi Danh sách thịnhhanh(trends list) được thiết kế ra dé cho người dùng giúp mọi người khám phá rađược những tin tức nóng hồi nhất trên toàn thế giới theo thời gian mà không phải làtin tức phổ biến [1] Đặc trưng của xu hướng là tính chất tạm thời Xu hướng luônthay đổi và thường không kéo dài mãi mãi Một xu hướng mới có thé thay thé xuhướng cũ hoặc xuất hiện như một biến thể mới của nó Một xu hướng cũ muốn trởlại thành xu hướng thì nó phải được sử dụng bởi nhiều người dùng mới chưa từng

sử dụng nó bao giờ Ví dụ như là một số hashtag được sử dụng rất nhiều trên

Twitter nhưng xu hướng của nó có thê không cao bằng một số hashtag vô thưởng vôphạt Do đó, xu hướng trên Twitter xảy ra khi hashtag đó tiếp cận được với mộtlượng người dùng mới lớn và thời gian tăng trưởng phải ngắn

13

Trang 14

Trong tất cả các lĩnh vực, việc hiéu và dự đoán xu hướng là rất quan trọng Điều

này giúp các cá nhân, doanh nghiệp và tô chức có thé theo kịp với nhu cầu và mong

muốn của xã hội

1.2.2 Hashtag

Hashtag là dấu thăng (#) được đặt trước một chuỗi ngắn để đánh dấu và nhóm các

bài viết, thông điệp hoặc nội dung có liên quan và thường được sử dụng liên kết vớithông điệp được truyền tải Khi một từ hoặc cụm từ được gan kết với hashtag, nótrở thành một liên kết có thê được nhấp chuột để người dùng khám phá các nội

dung tương tự.

Hashtag có rât là nhiêu công dụng và có ảnh hưởng đáng kê đôi với người dùng và các tô chức, bao gôm:

e Phan loại nội dung: Giúp gom những bài viết sử dụng cùng sử dụng một

hashtag lại với nhau Qua đó dễ dàng khám phá nội dung mà họ quan tâm và

tham gia vào các topic, sự kiện hoặc hoạt động cộng đồng.

e Tiếp cận dé dàng hơn: Khi sử dụng hashtag, người dùng có thé làm cho bài

viết của mình có thé được tiếp cận bởi những người cùng quan tâm đến van

dé ấy ké cả khi không theo dõi họ Điều này mở rộng phạm vi tiếp và tương

tác với một bộ phận đại chúng rộng.

e Xây dựng cộng đồng: Hashtag tạo ra một cách kết nối và gắn kết giữa cá

nhân có cùng sở thích, ý kiến hoặc mục tiêu Các hashtag được tạo ra chocác sự kiện có thé kích thích sự tham gia và tạo ra một cộng đồng mạnh mẽ,

trong đó người dùng có thê chia sẻ ý kiến, kinh nghiệm và tạo ra tương tác

tích cực.

e_ Tiếp thị và quảng bá: Việc tìm ra được hashtag xu hướng sớm có thê giúp

cho các chuyên viên tiếp thị có thể chuan bị những nội dung kinh doanh phùhop dé gia tăng khả năng thành công Ngoài ra còn về mặt quảng bá thì việc

có được kêt quả nghiên cứu cũng có thê giúp cho các công ty, sự kiện có thê

14

Trang 15

lên những chiến dịch quảng cáo hợp thời hơn, qua đó thu hút và có khả năngtiếp cận khách hàng

Theo dõi và phân tích: Dựa vào số lượng dữ liệu không 16 theo thời gian, khi

áp dụng bài toán vào thì có thé giúp cho các phân tích viên có thé sử dụng dé

vẽ ra một bức tranh toàn cảnh cho van dé họ tìm hiểu Qua đó có thé đưa ra

các nhận định chính xác hơn.

Tạo nội dung thịnh hành: Một hashtag phổ biến và hấp dẫn có thể khiếnthông điệp trở nên nội dung thịnh hành Khi người dùng cảm thấy liên kếtvới bản thân và tò mò với một hashtag nổi bật, họ có thé chia sẻ nó qua đókhiến lượng người sử dụng hashtag đó gia tăng Hỗ trợ việc đây mạnh sự

phát triển và tương tác của nội dung, tạo ra sự chú ý rộng rãi và độc đáo cho

người dùng và thương hiệu.

1.2.3 Mô hình hoá bài toán

Chi tiết hơn, với bài toán nhận diện xu hướng trên Twitter dựa vào hashtag được

định nghĩa như sau:

Đầu vào: Dữ liệu của Twitter bao gồm các đặc trưng đi kèm và thông tin về

các tweet(hashtag, số lượt thích, số lượt đăng lại, ), thông tin của người

đăng bài tweet(vi trí, tick xanh, số người theo dõi, ), thông tin của người

tương tác,

Đầu ra: hashtag mà được nhận định là sẽ trở thành xu hướng

Các dòng đều được phân loại bằng nhãn ‘0’ va ‘1’ tương ứng với ý nghĩa như sau:

Nhãn ‘0’ : Tweet có không có chứa hashtag sẽ trở thành xu hướng.

Nhãn ‘1’ : Tweet có chứa hashtag sẽ trở thành xu hướng.

= Đây là một bài toán phân lớp nhị phân.

15

Trang 16

#

Đầu vào : thông tin các ‘tweet’ và Đầu ra : các hashtag sẽ trở thành

người dùng liên quan xu hướng trong tương lai gần

Hình 1-1: Mô hình hoá việc tìm các hashtag sẽ trở thành xu hướng từ các tweet.

1.3 Ứng dụng

Nếu kết quả cuối cùng của đề tài này khả quan thì công năng sẽ rất đa dạng:

e Nghiên cứu xu hướng : Nghiên cứu này có thé giúp phân tích các hashtag

đang lan truyền nhanh trên Twitter và áp dụng vào các lĩnh vực văn hoá,kinh tế

e Nhận diện tin tức giả và tin đồn: Phương pháp phát hiện các hashtag lan

truyền nhanh có thể được tham chiếu để phân tích qua đó phát hiện sự lan

truyền tin tức giả và tin đồn trên Twitter Tiêu cực của thông tin sai lệch sẽđược ngăn chặn và củng cố, cải thiện sự tin cậy và sự thật của thông tin

e Tiếp thị và quảng cáo: Giúp cho việc đưa ra các chiến dịch quảng cáo hợp

thời và tiếp thị cho đúng đối tượng có nhu cầu Có thê dùng để xem được

hiệu suất của từng chiến dịch trên mạng xã hội

e Phát hiện và phản ứng sớm với sự kiện khẩn cấp: Việc phát hiện các hashtag

lan truyền nhanh liên quan đên các vân dé liên quan đên hiêm hoa, sự cô an

16

Trang 17

nình có thể giúp những ban ngành có liên quan đưa ra những phản ứng thích

hợp.

1.4 Khó khăn thách thức

Với những tác dụng đa dạng thi đi theo đó có rất nhiều van dé, thách thức:

e Thu thập dữ liệu: Dữ liệu dé tiến đưa vào thực nghiệm nhận diện các hashtag

lan truyền nhanh, cần được thu thập từ Twitter Tuy nhiên, đối với các nền

tảng Twitter phải tuân thủ một số quy định do các hạn chế về quyền riêng tư,

chính sách của nền tảng hoặc bị giới hạn trong việc truy cập và sử dụng API

e Xu lý dữ liệu lớn: Vì là dữ liệu mạng xã hội nên kích thước dữ liệu rất lớn

Theo thống kê thì có khoảng 90 triệu dòng twitt được tạo ra mỗi ngày Chonên việc tiễn hành xử lý dữ liệu dang này cần có yêu cầu nhất định về tàinguyên xử lý hoặc phải đánh đổi băng việc giảm bớt thông tin dé phù hợp

e Xác định đặc trưng phát hiện: Dé xác định các hashtag lan truyền nhanh, cần

xác định các tiêu chí và thuật toán phát hiện phù hợp Điều này có thé đòi hỏinghiên cứu cân thận về tính chất của hashtag

e Tính xác thực: Việc phát hiện các hashtag lan truyền nhanh, cần đảm bảo

tính xác thực Điều này đòi hỏi quy trình kiếm thử và đánh giá kỹ lưỡng đối

với kết quả và phương pháp

e Tính biến thiên liên tục trong mạng xã hội: Vì xu hướng thay đổi liên tục ,

cho nên yêu cầu nghiên cứu cần được đổi mới và thích nghỉ liên tục

1.5 Mục đích nghiên cứu

Mục đích cuối dùng của dé tài là dựa vào thông tin về các tweet tạo thành được mộtphương pháp nhận diện xu hướng trên Twitter Với yêu cầu là đạt độ chính xác đủcao dé có khả năng tham khao(70%)

Nghiên cứu này mong muốn đóng góp kiến thức và phương pháp hữu ích cho việc

phân tích và theo dõi xu hướng.

17

Trang 18

1.6 Đối tượng, phạm vi nghiên cứu

Đối tượng nghiên cứu: Dữ liệu về thông tin của các tweet trên Twitter và đữ liệu về

các hashtag đã trở thành xu hướng Thông tin các tweet có chứa hashtag đã trở thành xu hướng được phân ra làm hai loại là xu hướng, không xu hướng.

Phạm vi nghiên cứu: Được triển khai trên tap dữ liệu Tweet được thu thập từ ngày

01/10/2021 đến ngày 31/10/2021

18

Trang 19

Chương 2 CÁC HƯỚNG NGHIÊN CỨU

2.1 Nghiên cứu mối quan hệ giữa hashtag với người dùng

Trong lĩnh vực truyền thông, sự phát triển của các nền tảng chia sẻ nội dung ngăn

đã tạo ra một số nghiên cứu quan trọng về quan hệ giữa hashtag và người dùng,

nhóm người dùng Những nghiên cứu này quan sát quá trình vận hành của hashtag

và mối liên hệ với những người sử dụng

Mối quan hệ giữa việc sử dụng hashtag với người dùng trên Twitter được phân tích

bang cách áp dung Diffusion of Innovations Với nguồn dit liệu được thu thập gồm

41 triệu tweet và mô hình đa cấp kiểm định sự lan truyền hashtag giữa các nhómngười dùng Và đã chứng mình được rằng những người dùng ảnh hưởng nhất đến sự

lan truyền hashtag là những người dùng có số lượng follow và lượt đăng

lai(retweet) cao Tiếp theo, sự lan truyền hashtag cũng phụ thuộc vào hashtag của

tweet [2|

Phân tích ảnh hưởng của việc sử dụng hashtag với cảm xúc cua tweet trên Twitter.

Tác giả đã thu thập một triệu tweet và áp dụng phân tích cảm xúc (sentiment

analysis) để tính toán tác động của hashtag Kết quả cho thấy sử dụng hashtag giúptăng tính trung thực của tweet trong việc truyền tải cảm xúc, nhất là tweet mang tính

cảm xúc mạnh [3]

Còn có nghiên cứu về việc dựa vào cách sử dụng hashtag mà có thể nhận diện được

đâu là các tài khoản bị đánh cắp [4]

Các nghiên cứu này cũng nhân tố xã hội ảnh hưởng đến việc sử dụng hashtag trêncác Twitter Một số nghiên cứu khác tập trung vào việc nhận diện hashtag theo các

đặc trưng.

Các nghiên cứu về lĩnh vực này đã đóng góp đáng kể tri thức về cách các mạng xã

hội hoạt động và hashtag.

19

Trang 20

2.2 Phân tích ngôn ngữ tự nhiên

Với hashtag, néu xét về mặt ngữ nghĩa thì có một mảng nghiên cứu riêng Nghiên

cứu về hashtag trong xử lý ngôn ngữ tự nhiên (NLP) trở thành một điểm nóng trong

cộng đông nghiên cứu vì vai trò quan trọng trong việc quản lí cơ sở thông tin.

Một phương pháp mới dé phân tích các tweet và xử lý hashtag theo thời gian thực.Phương pháp này được gọi là "Hybrid Hashtags" và kết hợp sự kết hợp của cáchashtag chủ đề và hashtag dựa trên vi trí địa lý Với kỹ thuật này đã tạo ra một hệthống phân tích theo thời gian thực, giúp bắt kịp và hiểu rõ hơn về các xu hướng và

ý kiến đang diễn ra trên Twitter.

Phương pháp "Hybrid Hashtags" được triển khai trên luồng dữ liệu lớn của Twitter,nhằm đảm bảo tính thời gian thực và khả năng mở rộng Các kết quả nghiên cứu

cho thấy phương pháp này có khả năng phân tích và phát hiện các xu hướng và ý

kiến trong thời gian thực, đồng thời cung cấp thông tin chi tiết về các yếu tô địa lý

liên quan [5]

Ngoài ra còn có nghiên cứu về việc sử dụng xử lý ngôn ngữ tự nhiên cho nội dung với Hashtag Thì Hashtag sẽ đem lại nhiêu thông tin có ích hơn so với việc phân thích context đơn giản [6]

2.3 Nghiên cứu về tính lan truyền của hashtag trong môi trường mạng xã

hội

Con đường nghiên cứu này tập trung vào sẽ tính toán làm sao các hashtag lan truyềntrên môi trường mạng xã hội và đặc điểm người dùng sử dụng hashtag Các nghiêncứu theo hướng này thường lấy việc phân tích dữ liệu trên các nền tảng như Twitter

và Facebook làm chủ đạo để hiểu rõ hơn về cách mà hashtag được sử dụng, lantruyền và ảnh hưởng đến việc tương tác giữa người dùng với người dùng Một sốchủ đề nghiên cứu gồm phát hiện các hashtag xu hướng và mức độ ảnh hưởng của

hashtag.

Có nhiều đề tài về cách phát hiện các hashtag đang lan truyền nhanh Với phươngpháp phù hop với dit liệu mạng xã hội thi đã nghiên cứu các liên kết giữa các

20

Trang 21

hashtag, qua đó đề xuất một phương pháp mới để xác định các hashtag đang lan

truyền nhanh là băng cách sử dụng chỉ số "tần suất xuất hiện" và "độ phân cấp".Trong thực nghiệm trên dữ liệu thực tế cho thấy kết quả rất tốt và có thể phát hiệnđược các hashtag đang lan truyền nhanh trong thời gian thực [7]

Ngoài ra, phân tích các hashtag ứng dụng nhiều như trong thé thao, âm nhạc, chính

trị, giải trí và kinh doanh Các kết quả cho thấy rằng các hashtag xu hướng có liênquan đến thời sự, giải trí và thé thao, qua đó đánh giá tác động của việc sử dunghashtag trong chiến lược tiếp thị và kết luận rằng các hashtag phù hợp có thể tăngtầm nhìn và tương tác trên Twitter Tác giả đã sử dụng Spark dé stream dit liệu cho

việc xử lí [8]

Còn có cách áp dụng Twitter streaming để dự đoán xu hướng trên tất cả nền tảng

mạng xã hội cũng là một hướng đã được khai thác và nghiên cứu Nhóm tác giả đã

sử dụng hashtag trên Twitter đã tiễn hành dự đoán xu hướng trên các nền tảng khác

[9]

Bang 2-1: Các hướng nghiên cứu liên quan đến hashtag

Hướng nghiên cứu | Nghiên cứu tiêu biểu | Phương pháp

Tinh lan truyền của | [7]., [8] [9] Thuật toán EM, Mô hình thống kê,

Hashtag mô hình phân loại

Nghiên cứu mối | [2], [3], [4] Phan tích mang xã hội, decision

quan hệ giữa tree

hashtag với người

dùng

Phân tích ngôn ngữ | [5], [6] Phân tích dữ liệu lớn

tự nhiên

21

Trang 22

Bằng cách theo dõi sự lan truyền của hashtag trên Twitter, ta có thé xác định được

mức độ phổ biến và sự tương tác của người dùng với hashtag đó Mô hình nhậndiện xu hướng dựa trên hashtag có thê sử dụng các phương pháp như: mô hình ngônngữ hoặc thuật toán học máy dé phân tích dữ liệu từ các hashtag liên quan va xácđịnh xu hướng tiềm năng trong tương lai

Cuối cùng, việc chọn hướng phân tích tính lan truyền của hashtag để xây dựng

phương pháp dự đoán xu hướng dựa trên hashtag trên Twitter mang lại lợi ích vô

cùng quan trọng trong việc hiểu và tiên đoán xu hướng xã hội, từ đó giúp tạo ranhững ứng dụng và chiến lược phù hợp xu thế mạng xã hội phát triển mạnh mẽ như

hiện nay.

22

Trang 23

Chương 3 CƠ SỞ LÝ THUYET

3.1 Mô hình Support Vector Machine

Support Vector Machine(SVM) là một mô hình máy học cực kỳ mạnh mẽ SVM

ứng dụng trong bài toán phân lớp, hồi quy và nhận diện dữ liệu ngoại lai

SVM là một mô hình rất phổ biến trong học máy và bat cứ ai có học về lĩnh vực này

cũng sẽ biết SVM đặc biệt phù hợp trong việc phân loại các các bộ dữ liệu trung

bình và nhỏ nhưng phức tạp [10]

3.2 Mô hình Decision Tree

Cũng như SVM, mô hình Decision Tree(DT) là một thuật toán máy học rất phổbiến DT cũng có thể áp dụng cho bài toán phân loại Decision Tree là một mô hình

phù hợp với đa dạng các hình dáng và kích thước dữ liệu [10]

Với đặc điêm là tôc độ cao, tuy nhiên bi ảnh hưởng bởi những cột có nhiêu giá tri

và rât dê ảnh hưởng bởi các biên đâu vào, chỉ cân có sự thay đôi nhỏ cũng đêu

khiến cho độ chính xác tông thé bị thay đối

3.3 Mô hình Random Forest

Mô hình Decision Tree mặc dù mạnh mẽ những van chưa thật sự đủ tốt trong một

sỐ trường hợp, cho nên dựa trên cơ sở của nó đã nâng cấp lên một mô hình mạnh

mẽ hon là Random Forest(RF) Bản chất của Random Forest là huấn luyện nhiềuDecision Tree(được gọi là Random Forest) cho từng phần nhỏ của tập huấn luyện

ban đâu.

Khi thực hiện dự đoán, mỗi cây trong rừng sẽ đưa ra một dự đoán riêng Trong bài

toán phân loại, dự đoán cuối cùng với"phương pháp bầu cử đa số" (majority voting)trên các dự đoán của các cây trong rừng Bồ sung được khiếm khuýet của DT vềkhả năng bị ảnh hưởng bởi nhiễu Rất phù hợp với các bài toán có nhiều đặc trưng

và cần nhiều góc nhìn linh hoạt khác nhau [10]

23

Trang 24

3.4 Mô hình Logistic Regression

Logistic Regression(LR) thường được áp dụng trong các bài toán hồi quy nhưng có

thể sử dụng cho các bài toán phân lớp Cơ sở tính toán việc ước tính xác suất một

mẫu nào đó rơi vào lớp cụ thể nào Đối với bài toán phân lớp đa biến LR sẽ dự

đoán lớp có xác suât xảy ra lớn nhât.

Tuy nhiên, với điêm yêu là đòi hỏi các diém dữ liệu huân luyện phải là được tạo ra

riêng biệt với nhau Thê nhưng, đữ liệu thực tê thì thường có môi liên hệ với nhau.

Cho nên, thuật này chỉ thích hợp với một số dữ liệu nhất định [11]

3.5 Mô hình Gradient Boosting

Gradient Boosting là giải pháp mạnh mẽ và phô biến trong việc giải quyết các bàitoán bao gồm các bài toán phân loại và hồi quy và cả học có giám sát, Gradient

Boosting là một một mô hình dự đoán đặt hiệu quả cao bằng cách tập hợp nhiều mô

hình yếu (weak learners) thành một mô hình mạnh (strong learner)

Ý tưởng cơ bản của Gradient Boosting là kết hợp các mô hình yếu dựa trên quy tắc

"học từ sai lầm"(thêm liên tục các đặc trưng và biến dự đoán vào một nhóm, mỗiyếu t6 sửa lỗi tiền thân của nó) Tuy nhiên phương pháp này thay đổi tham số dựatrên tất cả các lỗi đã diễn ra trước nó [10]

Trong quá trình Gradient Boosting, các mô hình yếu được xây dựng dựa trên câyquyết định (decision tree), được gọi là Gradient Boosted Tree Quá trình tối ưu hóa

mô hình dựa trên việc tính toán gradient của hàm mất mát (loss function) kết hợp

với điều chỉnh các cây quyết định dựa trên gradient này

3.6 Mô hình Naive Bayes

Có nguồn gốc từ định lý Bayes cho nên mô hình phân lớp Naive Bayes có công

thức toán học tương tự Bayes.

Công thức [12]:

24

Trang 25

P(y|X) = ee

Trong đó:

ey: biến đầu ra

e X: tập các cột trong bộ dữ liệu.

© P(ylX) xác suất của y đối với X

e P(Xly) xác suất X đối với y.

e P(y) được gọi là xác xuất xảy ra của y

e P(X) được gọi là xác suất xảy ra của X

Đối với mô hình Navie Bayes, cần lưu ý 2 đặc điểm sau:

e Đối với biến đầu ra, từng đặc trưng đưa vào có độ quan trọng như nhau

e Các cột đều độc lập với nhau, có thé hiểu khi thay đổi một cột bat kỳ thì các

cột khác sẽ không bị ảnh hưởng.

3.7 Mô hình K-Nearest Neighbor

Mô hình K-Nearest Neighbors (KNN) là một thuật toán học máy được sử dụng chủ

yếu trong bài toán phân lớp và hồi quy KNN dựa trên nguyên tắc răng các mẫu cóđặc trưng tương tự thường có cùng nhãn lớp hoặc giá trị đầu ra(instance-based)

25

Trang 26

[10] Các mẫu gần nhất (k mẫu) sẽ được chọn dé xác định lớp hoặc giá tri đầu ra

cho mẫu mới, thông qua biéu quyết đa số (voting) trong bài toán phân loại

Trong KNN, lựa chọn k có một số lưu ý Giá trị k càng lớn, mô hình càng phức tạp

và nhạy cảm với nhiễu, trong khi K nhỏ có thé dẫn đến hiện tượng overfitting.Thông thường, giá trị K được chọn dựa trên tập huấn luyện và đánh giá trên tậpkiểm thử

26

Trang 27

Chương 4 PHƯƠNG PHAP DE XUẤT

4.1 Ý tưởng ban đầu

Dữ liệu cho bài toán là các thông tin được sinh ra khi người dùng sử dụng mạng xã

hội Và với đặc điểm là chia sẻ công khai, từ dữ liệu chúng ta có thé thay được ở

ngay ở giao diện của nền tảng mạng xã hội, cho đến những dữ liệu năm ở phía saunam phía sau mà người dùng bình thường không nhìn thấy được, chúng ta đều cóthé khai thác Với lượng dit liệu không 16 và không ngừng sinh ra theo thời gian thìtiềm năng khai thác cũng vô cùng lớn Các thông tin có thể khai thác cũng có rất đadạng như dữ liệu cá nhân, vị trí người dùng, thông tin về ngôn ngữ, sự hứng thú về

các chủ đề nhất định và ké cả thông tin người dùng tương tác với cái gì Và một đặc

trưng của mạng xã hội thì không thé không nhắc tới ‘hashtag’ Hashtag là một đặctrưng không thé thiếu và là một thứ rất thường xuyên được người dùng sử dụng.Với chỉ một đoạn chuỗi ký tự ngắn ngủi như thế, hashtag có thé mang lại những ýnghĩa như thế nào Theo nhóm khảo sát, có khá nhiều nghiên cứu về khai thác dữliệu mạng xã hội có liên kết với hashtag Các nghiên cứu thường nghiên về sử dụngcác mô hình thống kê dé tính toán độ lan truyền và có một số các nhà nghiên cứu đi

theo hướng tính toán, lựa chọn đặc trưng Tuy nhiên các bài toán theo hướng phân

tích đặc trưng mà thường có độ hiệu quả tương đối thấp Vì thế mô hình của đề tài

dự tính sẽ là phiên bản mới và hoàn thiện hơn so với các nghiên cứu trước đó.

Tuy nhiên với dữ liệu gốc của bài viết thì thường có rất là nhiều đặc trưng trong đó

và việc tính toán xem những đặc trưng nao tương quan với kết quả dau ra là cả mộtthử thách Và sau khi việc lựa chọn vector đặc trưng phù hợp rồi thì tiến hành tớiquy trình xây dựng mô hình Huan luyện trên các vector đặc trưng phù hợp và điều

chỉnh các tham số mô hình cho đến khi đạt được kết quả tốt Theo quá trình huấn

luyện thì cũng tiễn hành tiền xử lý và thay đổi vector đặc trưng dé đảm bảo sẽ cóđược đầu vào dé đảm bảo kết quả đưa ra có thé sẽ tốt hơn

Theo đó đề tiến hành nhận diện được thì ta sẽ có framework như sau:

27

Trang 28

Raw Dataset

L~~~~=====<TTTT~~~—=~—-— =ZE~=————~ 1

> Input

> Same time collection

> Select the most

>> Z A Hashtag Ranking frequency

—— >» Feature engineering hashtag

Hình 4-1: Framework bài toán.

Mô hình nhận diện hashtag sẽ trở thành xu hướng gồm:

e_ Giai đoạn 1: Tiền xử lý dữ liệu

Ta tiến hành tái tổ chức lại bộ dữ liệu dưới dạng bảng cải thiện khả năng truy

xuất và chỉnh sửa dữ liệu Sau đó, trích xuất đặc trưng cần thiết cho việc xây dựng

mô hình.

e Giai đoạn 2: Phân loại và xây dựng mô hình.

Quá trình huấn luyện và dự đoán sẽ tiễn hành áp dụng các vector đặc trưng, hiệu

chỉnh tham số dé cải thiện đầu ra dé nhận diện đầu ra “Label” tốt hon

Với dạng dữ liệu mạng xã hội thì một mô hình luôn chiếm thế mạnh trong bài

toán này là mô hình Random Forest với các vector đặc trưng được lựa chọn phù hợp

thì trước khi triển khai huấn luyện mô hình đã đưa ra kết quả khá là khả quan

e Giai đoạn 3: Nhận diện

Tiến hành chạy trên dữ liệu kiểm thử, băng mô hình đã được xây dựng ở giai

đoạn trước đó.

e Giai đoạn 4: Phân tích.

28

Trang 29

Tiến hành phân tích dữ liệu được nhận diện ở mô hình trước và đánh giá kết quả Nếu đạt yêu cau(>75%) sẽ chấp nhận mô hình đó và ghi nhận kết quả Còn không

thì sẽ quay lại giai đoạn 2.

4.2 Mô hình tổng quát

Định nghĩa mô hình: Tính xu hướng được quyết định bởi sự cùng đặc điểm trong sự quan tâm của một nhóm người đến một vấn đề nào đó Nên việc việc một nhóm người tham gia xu hướng sẽ có một số tập đặc điểm xác định Vì thế nên nhóm đã

tiến hành lựa chọn những đặc điểm phù hợp trong dữ liệu sau đó tiến hành huấn

luyện trong một khoảng thời gian ngắn có thé cho ra kết quả theo quy tắc như sau:

e Lấy mẫu với số lượng thấp nhất và cách lấy là ngẫu nhiên từ tập dữ liệu ban

đầu Sau đó tiền hành huấn luyện dựa trên mẫu dữ liệu đó.

© Sau khi huấn luyện xong thì vẫn giữa dữ liệu đó trong bộ dữ liệu và tiến

hành lấy mẫu ngẫu nhiên với số lượng tăng dần cho đến khi đạt đến ngưỡng

tối đa của bộ dữ liệu Cuối cùng thu được bộ dữ liệu mới với với số lượng

đặc trưng khác nhau.

© Ding thuật toán DT để tiễn hành xây dựng tập luật với dữ liệu trên.

e Tuy nhiên do việc dễ bị ảnh hưởng bởi sự thay đổi của tập mẫu cho nên độ

chính xác của DT có thé là không cao Tuy nhiên, RF lại tổng hợp từ nhiều

DT lại cho ít bị ảnh hưởng bởi tập mẫu như DT và bù lại khiếm khuyết của

DT bằng cách bổ sung lẫn nhau và do đó tạo nên một mô hình dự đoán tốt.

29

Ngày đăng: 02/10/2024, 04:47

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN