Mô hình đề xuất

Một phần của tài liệu Một mô hình tìm kiếm vai trò trong mạng xã hội Twitter (Trang 37)

1. Chương Giới thiệu về mạng xã hội, mạng xã hội Twitter và bài toán khai phá va

3.2. Mô hình đề xuất

Đầu vào:

- Dữ liệu Twitter được crawler theo các hot trend topic - Đặc trưng vai trò cần tìm kiếm

Đầu ra:

- Các cụm dữ liệu có các đặc trưng tương đồng với đặc trưng đưa vào tìm kiếm.

Các pha chính:

1. Phân tích đặc trưng 2. Phân cụm dữ liệu 3. Gán vai trò

38

Hình 8: Mô hình đề xuất

Chi tiết về các bước trong mỗi pha cũng như chi tiết về giải pháp đề xuất được trình bày ở các mục 3.2.1, 3.2.2, 3.2.3

3.2.1. Pha phân tích đặc trƣng

Trong pha phân tích đặc trưng, sau khi crawler dữ liệu Twitter về, chia làm 3 bước để phân tích và trích chọn đặc trưng

Bƣớc 1: Mô hình hóa dữ liệu:

Biểu diễn đồ thị thực thế quan hệ với 3 đỉnh và 5 cung như mô hình [21] với 3 đỉnh: con người, tài liệu, tag và 5 cung:

- Person – publishes: Người công khai - Person –receives: người nhận

39 - Depicts: Mô tả

- Knows: Hiểu biết - References: Tham khảo

Bƣớc 2: Đặc trƣng hóa dữ liệu

Ngoài 14 vai trò như trong mô hình [21], chúng tôi bổ sung thêm 1 đặc trưng M15 –Số lượng retweet của người p trong mạng

- M1: Số lượng người p biết.

- M2: Số lượng người biết p.

- M3: Mối quan hệ tương tác của p.

- M4: Hệ số phân cụm của liên hệ đã biết, nó cho biết mức độ gắn kết những người bạn của p.

- M5: Độ sâu truyền thông trung bình của người p. Tính toán phạm vi tác động của người p trong mạng. Đặc trưng này được tính toán bằng cách:

o 1. Xác định mọi tài liệu được p xuất bản.

o 2. Xác định được tất cả những người bị ảnh hưởng từ tập tài liệu ở bước 1. Coi một người B nhận ảnh hưởng từ người A nếu: B nhận được một tài liệu từ A, tài liệu của B tham khảo bất kỳ tài liệu được A xuất bản; hoặc B có thể ghi tên vào tài liệu bất kỳ được A xuất bản.

o 3. Đối với mỗi người i nhận ảnh hưởng từ p, tính khoảng cách giữa i và p, như số lượng các cạnh đi qua của con đường ngắn nhất giữa i và p bằng cách sử dụng mối quan hệ biết nhau.

o 4. Độ sâu trung bình là trung bình các khoảng cách được xác định trong bước 3.

- M6: Độ sâu truyền thông tối đa của người p: độ sâu ảnh hưởng cao nhất của p đến trong mạng. Nó được tính như M5, nhưng bước 4 của thuật toán tính mức tối đa thay vì mức trung bình.

- M7: Số lượng tin nhắn mà p nhận được. - M8: Số tài liệu mô tả p.

- M9: Thời gian trung bình các hành động ảnh hưởng được p thực hiện. Với mỗi hành động ảnh hưởng giữa hai người, tính toán sự khác biệt của thời gian.

40

- M10: Vị trí trung bình mà người p xuất hiện trong dòng truyền thông. Dòng được xác định trên văn bản và các tài liệu tham khảo liên quan. Ví dụ, nếu các tài liệu người B tham khảo một tài liệu được người A xuất bản, tài liệu người C tham chiếu của B, thì nói A có vị trí 0, B có vị trí 1 và C có vị trí 2 trong dòng. - M11: Số lượng các ấn phẩm của p.

- M12: Ngày p tham gia vào mạng.

- M13: Trung bình số lượng các từ trong các tài liệu được p xuất bản.

- M14: Tỷ lệ phần trăm từ mà tồn tại trong từ điển của tập tài liệu được p xuất bản. Từ điển được sử dụng là từ điển Wordmet.

- M15: Số lượng Retweet của người p trong mạng.

Sau bước này, mỗi người sẽ được biểu diễn bởi 1 vector đặc trưng 15 chiều

Vi = <M1, M2, M3, M4, M5,M6, M7, M8, M9, M10, M11, M12, M13, M14, M15>

Bƣớc 3: Chuẩn hóa dữ liệu

Trong bước này, chúng tôi thực hiện chuẩn hóa lại vector đặc trưng người. Do phương pháp phân cụm áp dụng dựa trên khoảng cách tương đồng giữa các cá nhân, do đó chúng tôi thực hiện chuẩn hóa các vector để phương pháp phân cụm được hiệu quả hơn. Chúng tôi sử dụng phương pháp chuẩn hóa Max/ min

Cho trước giá trị v của một độ đo m của một vector đặc trưng, áp dụng công thức biến đổi 𝒗−𝐦𝐢𝐧⁡(𝒎)

𝐦𝐚𝐱 𝒎 − 𝐦𝐢𝐧⁡(𝒎) trong đó min(m) là giá trị nhỏ nhất của tất cả các độ đo m và max(m) là giá trị lớn nhất. Kết quả nằm trong khoảng [0,1]

3.2.2 Pha phân cụm dữ liệu

Sau khi dữ liệu đã được chuẩn hóa, tiến hành phân cụm người dựa trên những hành vi tương đồng thành một nhóm. Trong pha này, chúng tôi sử dụng thuật toán K- Mean suy rộng (giải thuật Lọc filtering) để phân cụm những người có hành vi tương đồng thành một nhóm

3.2.3 Pha gán vai trò

Sau khi phân cụm dữ liệu, chúng tôi thực hiện gán vai trò cho các cụm với những độ đo đặc trưng mà người dùng đưa vào tìm kiếm. Trong phương pháp gán vai

41

trò, chúng tôi sử dụng phương pháp độ lệch chuẩn Sdv, và không thực hiện mở rộng tập seed.

Mỗi cụm c có một tập các vec-tơ đặc trưng, mỗi vector đặc trưng Vi tương ứng với từng cá nhân trong cụm sẽ có giá trị:

Vi = <v1, v2, v3, v4, v5, v6, v7, v8, v9, v10, v11, v12, v13, v14, v15>

Thực hiện tính toán giá trị trung bình các đặc trưng mi trên tất cả những vector đặc trưng được gán trong cụm c. Sử dụng phương pháp độ lệch chuẩn (Sdv) để gán vai trò. Đặt 𝒎𝒊−là giá trị trung bình của các phân cụm cho các phần tử 𝒎𝒊.Với mỗi phần tử trong cụm, chúng tôi tính toán độ lệch chuẩn tương ứng với 𝒎𝒊−. Các độ đo phù hợp được định nghĩa trong khoảng các giá trị nhỏ nhất và lớn nhất của độ lệch chuẩn mà cụm đó tính được trên giá trị trung bình 𝒎𝒊−. Sau bước này, thu được một số cụm thỏa mãn đặc trưng của người dùng đưa vào. Chúng tôi không thực hiện mở rộng tập seed mà thực hiện trả về kết quả cho người dùng luôn.

Trong mô hình này, chúng tôi thực hiện tìm kiếm 3 vai trò trong đó thực hiện tìm kiếm 2 vai trò người nổi tiếng và người vận động quảng bá giống như mô hình của Trabado và cộng sự [21]. Chúng tôi đề xuất tìm kiếm thêm một vai trò mới đó là vai trò người khởi tao ý tưởng trong truyền tin (idea starter) [20]

- Ngƣời nổi tiếng: Là những người đựơc theo dõi và nhắc tới nhiều nhất, thường là những người của công chúng là Lady Gaga hay Gisele Bundchen. Họ thu hút sự chú ý của các khán giả qua các buổi giao lưu bởi mọi người nói với và nói về họ. Do đó, họ là những người được kết nối nhiều nhất nhưng không nhất thiết phải là người có ảnh hưởng lớn nhất. Các độ đo thường được dùng cho vai trò này là số lượng người theo dõi (M2) và số lượng đề cập (M8).

- Ngƣời vận động quảng bá: Một số người đóng vai trò chủ động hơn trong việc truyền tải nội dung so với những người khác. Những người phân phối quan điểm này dễ dàng tiếp nhận những xu hướng bất kể có người bạn nào của họ có cùng ý tưởng hay không và không ảnh hưởng lớn tới những người khác [27]. Độ đo phù hợp bao gồm cả thời gian và vị trí (M9 và M10).

- Ngƣời khởi tạo trong truyền tin: Là các cá nhân bắt đầu cuộc hội thoại. Họ có xu hướng được đánh giá cao khi tham gia các phương tiện truyền thông trong môi trường ngoại truyến và trực tuyến. Họ sử dụng nhiều phương tiện truyền

42

thông xã hội, tuy nhiên có một mạng lưới các mối quan hệ tin cậy đa dạng đặc biệt là trong môi trường trực tuyến. Như một kết quả của điều này, mạng kết nối của họ thường bị giới hạn và có chất lượng cao. Mặc dù những người khởi tạo ý tưởng có thể không phải là “bright idea”, họ vẫn là những người mà bắt đầu các cuộc nói chuyện và do đó có các kết nối tin cậy, là môi trường phong phú cho các ý tưởng phát triển. Họ có một tỉ lệ lớn các tài liệu được retweet. Độ đo đặc trưng: M2, M3, M11, M15

Tóm tắt chƣơng 3:

Chương 3 của luận văn đã trình bày về tư tưởng chính của phương pháp đề xuất cho bài toán tìm kiếm vai trò trên mạng xã hội Twitter. Luận văn cũng đã giới thiệu chi tiết các pha cũng như các bước trong từng pha của phương pháp đề xuất.

Trong chương tiếp theo, luận văn tiến hành thực nghiệm dựa trên phương pháp đã xây dựng và đánh giá kết quả đạt được của phương pháp đề xuất.

43

Chƣơng 4. Thực nghiệm và đánh giá

Dựa vào mô hình đề xuất ở chương 3, luận văn tiến hành thực nghiệm mô hình tìm kiếm vai trò trên mạng xã hội Twitter. Để làm rõ mô hình đề xuất cũng như 3 pha chính trong mô hình, thực nghiệm được tiến hành trong khoảng thời gian 3 tháng, từ ngày 15/07/2014 đến ngày 15/10/2014.

4.1. Môi trƣờng và các công cụ sử dụng thực nghiệm

Cấu hình phần cứng:

Thành phần Chỉ số

CPU 1.90 GHz Core i5 Intel

RAM 8GB

OS Windows7

Bộ nhớ ngoài 500GB

Bảng 1: Cấu hình phần cứng

Các phần mềm sử dụng:

STT Tên phần mềm Tác giả Nguồn

1 Visual studio http://www.microsoft.com/enus/download/det ails.aspx?id=34673 2 Weka Machine Learning Group, University of Waikato http://www.cs.waikato.ac.nz/ml/weka/ Bảng 2: Các phần mềm sử dụng

44

Ngoài các công cụ trên, chúng tôi tiến hành cài đặt Project TweetAnalysis dựa trên ngôn ngữ C# bao gồm các module như sau:

- TweetAnalysis.CreateDatabase:Module thực hiện tạo database TweetDB - TweetAnalysis.Preprocessing: Module tiền xử lý dữ liệu

- TweetAnalysis.ParseFileInfo:Modulet hực hiện tạo các bảng dữ liệu: TweetTb1: lưu thông tin dữ liệu ban đầu, bảng userTb1: lưu thông tin trích chọn đặc trưng

- TweetAnalysis.ParseTweet:Module tạo bảng lưu thông tin về mối quan hệ giữa 2 người trong mạng xã hội Twitter

- TweetAnalysis.ParseParameter:Module trích chọn các đặc trưng từ M1 đến M15

- TweetAnalysis.TweetStandard: Thực hiện chuẩn hóa đặc trưng sau khi trích chọn

- TweetAnalysis.LuachonSeed: Module lựa chọn tập seed.

4.2. Tập dữ liệu thử nghiệm

Luận văn được thực nghiệm trên miền dữ liệu Twitter. Hiện nay, mạng xã Twitter không cho phép người dùng crawl được toàn bộ dữ liệu Tweet nên để thu thập dữ liệu Tweet, chúng tôi thử xây dựng module để truy vấn dữ liệu theo các hot topic tuy nhiên dữ liệu crawler được là không nhiều. Do đó chúng tôi sử dụng lại bộ dữ liệu mà nhóm tác giả Trabado và cộng sự cung cấp. Nguồn dữ liệu thực nghiệm được công bố trên trang web: http://snap.stanford.edu/data/bigdata/twitter7/

Tập dữ liệu bao gồm các những người tham gia mạng, các tài liệu, mối quan hệ following/follower và các hash tag; dữ liệu được crawler từ tháng 6/2010 -12/2010 và được lưu trữ trong các file text theo định dạng như sau:

T: Thời gian của tài liệu (tweet) được công bố

U: User thực hiện post tài liệu (tweet) đó

45

4.3. Thực nghiệm

4.3.1 Phân tích đặc trƣng

- Mô hình hóa dữ liệu:

Tương tự như mô hình của Trabado và cộng sự chúng tôi biểu diễn dữ liệu theo dạng đồ thị sử dụng mô hình quan hệ thực thế của mạng xã hội trong đó mỗi người có khả năng công bố và chia sẻ tài liệu với 3 đỉnh và 5 cung (cạnh) như trình bày trong các phần trên.

- Tiềnxử lý dữ liệu

Tập dữ liệu mà nhóm tác giả crawler có trên 40 triệu người, 26 triệu tweet và 1000 triệu mối quan hệ following/follower. Do đó chúng tôi đã thực hiện công tác tiền xử lý chỉ lấy những người tham gia tích cực trong mạng. Và chỉ giữ những người có ít nhất 25 tài liệu được công bố, 20 người theo dõi và theo dõi 20 người.  Tổng số người tích cực tham gia trong mạng là 84868 người.

- Trích chọn đặc trƣng:

Trong mô hình của Trabado và cộng sự, nhóm tác giả đã sử dụng cơ sở dữ liệu đồ thị DEX [12] để thực hiện load và phân tích trích chọn đặc trưng dữ liệu. Tuy nhiên trong mô hình đề xuất, chúng tôi tự thực hiện xây dựng cơ sở dữ liệu và các bảng biểu, sau đó thực hiện trích chọn đặc trưng.

- Chuẩn hóa đặc trƣng:

Sau khi trích chọn đặc trưng, chúng tôi thực hiện phương pháp chuẩn hóa Max/min để chuẩn hóa dữ liệu do đó giá trị của các đặc trưng nằm trong khoảng [0,1]. Kết quả phân bố giá trị của một số đặc trưng như sau:

46

Hình 9: Phân bố giá trị độ đo đặc trƣng M1

Hình 10: Phân bố giá trị độ đo đặc trƣng M2

0 1000 2000 3000 4000 5000 6000 0 0.01 0.02 0.03 0.1 0.15 0.2 0.25 0.35 0.6 0.8 1 0 500 1000 1500 2000 2500 3000 3500 4000 0 0.01 0.02 0.03 0.1 0.2 0.25 0.3 0.56 0.8 1

47

Hình 6: Phân bổ giá trị độ đo đặc trƣng M3

0 200 400 600 800 1000 1200 1400 1600 0 0.01 0.02 0.03 0.04 0.0 5 0.06 0.07 0.08 0.09 0.1 0.1 1 0.12 0.13 0.15 0.2 0.35 0.4 0.55 0.66 0.7 0.8 0.9 1

48

Hình 72: Phân bố giá trị độ đo đặc trƣng M8

Hình 8: Phân bổ giá trị đọ đo đặc trƣng M9

0 500 1000 1500 2000 2500 3000 3500 0 0.01 0.02 0.02 0.04 0.1 0.15 0.2 0.25 0.3 0.5 0.8 1 0 500 1000 1500 2000 2500 3000 0 0.01 0.02 0.03 0.04 0.05 0.06 0.1 0.12 0.2 0.25 0.3 0.4 0.5 0.6 0.8

49

Hình 94: Phân bố giá trị độ đo đặc trƣng M10

Hình 10: Phân bố giá trị độ đo đặc trƣng M11

0 1000 2000 3000 4000 5000 6000 0 0.73 0.74 1 0 200 400 600 800 1000 1200 1400 1600 1800 0 0.01 0.02 0.03 0.04 0.05 0.06 0.1 0.12 0.2 0.25 0.3 0.4 0.5 0.8

50

Hình 116: Phân bố giá trị độ đo đặc trƣng M15 Nhận xét:

Nhìn chung các độ đo đều tuân theo một quy luật phân bố.Chúng tôi nhận ra rằng các độ đo trên tập dữ liệu có những đặc tính khác nhau. Có một vài độ đo có nhiều giá trị khác nhau như M3, M9, M15 và một số chỉ có một vài giá trị như M10. Có một số độ đo có giá trị nằm tập trung trong một khoảng như M2,M8, M11.

4.3.2 Pha phân cụm dữ liệu

Sau bước phân tích đặc trưng, chúng tôi thực hiện chuẩn hóa file dữ liệu theo định dạng file .ArFF để làm đầu vào cho công cụ weka. Để so sánh hiệu quả của các thuật toán phân cụm, Chúng tôi tiến hành thực nghiệm với 2 thuật toán là K-mean suy rộng (giải thuật lọc) và K- mean. Trabado và cộng sự [21] đã đưa ra kết quả thử nghiệm tốt nhất với giá trị của K =500. Do đó chúng tôi thực nghiệm với các giá trị của K xung quanh khoảng [400, 600].

4.3.3 Pha gán vai trò

Chúng tôi sử dụng phương pháp độ lệch chuẩn (Sdv) để thực hiện tìm các tập seed tương đồng với các độ đo đặc trưng mà người dùng cần tìm kiếm. Kết quả cấu hình như sau:

Vai trò Độ đo liên quan Số lượng người

Người nổi tiếng M2: [0,∞) 688

0 200 400 600 800 1000 1200 1400 1600 1800 0 0.010.020.030.040.050.06 0.1 0.120.130.14 0.2 0.3 0.5 0.7 0.9 1

51 M8: [0,∞) Người vận động quảng bá M9: [0,∞) M10: [0,∞)

496

Người khởi tạo ý tưởng trong truyền tin

M2:[0,∞) M3:[0, ∞) M11: [0,∞) M15: [0,∞) 388 Bảng 3: Kết quả tìm kiếm

4.4 Kết quả thử nghiệm và phƣơng pháp đánh giá

Để đánh giá kết quả thử nghiệm và hiệu quả của thuật toán trong mô hình này chúng tôi sử dụng độ đo F- measure. Nó là sự kết hợp của của độ đo chính xác và độ đo hồi tưởng. Độ đo chính xác được ký hiệu là π chính là số lượng người thỏa mãn các tiêu chí tìm kiếm vai trò trên tổng số người được gán vai trò đó. Độ đo hồi tưởng được ký hiệu là ρ chính là số người phù hợp với các tiêu chí tìm kiếm vai trò trên tổng số người thực tế phù hợp với tiêu chí tìm kiếm vai trò này. Do đó độ đo F được tính như sau:

F=2𝜋𝜌

𝜋+𝜌

Như đã trình bày ở phần trên, trong pha phân cụm dữ liệu, chúng tôi sử dụng 2 thuật toán phân cụm K-mean suy rộng và K- mean để so sánh sự hiệu quả của 2 thuật toán. Nhìn chung thuật toán K-mean suy rộng cho hiệu quả tốt hơn và thời gian phân

Một phần của tài liệu Một mô hình tìm kiếm vai trò trong mạng xã hội Twitter (Trang 37)

Tải bản đầy đủ (PDF)

(56 trang)