Kỹ Năng Mềm - Công Nghệ Thông Tin, it, phầm mềm, website, web, mobile app, trí tuệ nhân tạo, blockchain, AI, machine learning - Tài Chính - Financial i LỜI CẢM ƠN Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tớ i PGS. TS. Hà Quang Thụy, Ths. Phạm Thị Ngân đã tận tình hướng dẫn và chỉ bảo tôi trong suố t quá trình thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn các thầy, cô trong trường Đại học Công Nghệ - Đạ i học Quốc gia Hà Nội đã tạo mọi điều kiện thuận lợi cho tôi học tập và nghiên cứu. Tôi cũng xin gửi lời cảm ơn đến các thầy cô, các anh chị, các bạ n trong phòng thí nghiệm KT-Lab đã hỗ trợ tôi rất nhiều về kiến thức chuyên môn trong quá trình thự c hiện khóa luận. Tôi xin cảm ơn các bạn trong lớp K54CLC đã ủng hộ và khuyế n khích tôi trong suốt suốt quá trình học tập tại trường. Cuối cùng, tôi xin được gửi cám ơn vô hạn tới gia đình và bạn bè, những người đã luôn bên cạnh, giúp và động viên tôi trong quá trình học tập cũng như trong suố t quá trình thực hiện khóa luận này. Tôi xin chân thành cảm ơn Hà Nội, ngày 13 tháng 05 năm 2013 Sinh viên Bùi Đình Luyến ii MÔ HÌNH HÓA ẢNH HƯỞNG CỦA BLOGGER TRONG CỘNG ĐỘNG DỰA TRÊN HỌ ĐỘ ĐO H-INDEX Bùi Đình Luyến Khóa QH-2009-ICQ, ngành Công nghệ thông tin Tóm tắt khóa luận tốt nghiệp: Ảnh hưởng xã hội xảy ra khi hành động của một người kéo theo các hành động củ a những người khác. Nếu được khai thác tốt, ảnh hưởng xã hội mang lại rất nhiều ứng dụng mà điển hình là tiếp thị (quảng cáo hướng đối tượng), hệ thống đề nghị, phân tích mạng xã hộ i, phát hiện sự kiện, tìm kiếm chuyên gia, đoán biết liên kết, xếp hạng… 9, 25. Trong vài ba năm gần đây, phân tích ảnh hưởng trong mạng xã hội nhận được sự quan tâm đặc biệt củ a cộng đồng nghiên cứu hàn lâm cũng như công nghiệp và nhiều công trình nghiên cứu đã đượ c công bố. Trên cơ sở mô hình iFinder đánh giá độ ảnh hưởng của blogger thông qua nhữ ng bài viết của blogger được Nitin Agarwal và cộng sự đề xuất 25, khóa luận đề xuất mộ t mô hình mô hình hóa ảnh hưởng của blogger trong cộng đồng theo họ độ đo h-index 4, 7, 13, 23 theo độ ảnh hưởng của bài viết được iFinder xác định. Phương pháp phân thùng được khóa luận sử dụng để chuyển giá trị thực thuộc đoạn 0..1 sang các giá trị nguyên phù hợp vớ i tính toán theo họ độ đo h-index. Bằng thực nghiệm công phu trên kho dữ liệu blog TUAW, khóa luận đã minh chứng được tính khoa học và thực tiễn của mô hình đề xuất. Từ khóa: Ảnh hưởng, blogger, iFinder, h-index iii MODELING THE INFLUENCE OF BLOGGERS IN THEIR COMMUNITY BASED ON THE H-INDEX MEASUREMENTS Bui Dinh Luyen QH-2009-ICQ course, Information technology faculty Abstract: Social influence occurs when a person''''s actions led to the actions of others. If fully exploited, social influence brought a lot of applications that are typical marketing (object oriented advertising), recommender systems, social network analysis, event detection, experts finding, link prediction, ranking etc 9, 25. In several recent years, social influence analysis of social networking to get special attention of the community as well as academic research and industrial research works have been published. Based on iFinder model, the evaluation influence of bloggers through blogger posts Nitin Agarwal and colleagues proposed in 2012 25, the thesis proposes a model to model the influence of bloggers in the community as the h-index measurements 4, 7, 13, 23 under the influence posts point which identified by iFinder. Binning methods are used to transfer real value in the interval to match the value calculated by the h-index measurements. With elaborate experiments on TUAW blog database, the thesis demonstrates the science and practice of the proposed model. Keywords: Influence, blogger, iFinder, h-index iv LỜI CAM ĐOAN Tôi xin cam đoan mô hình tính toán độ ảnh hưởng của blogger của khóa luậ n áp dụng họ chỉ số h-index và phương pháp phân thùng dựa trên mô hình iFinder, các thự c nghiệm là do tôi thực hiện dưới sự hướng dẫn của PGS. TS. Hà Quang Thụ y và ThS. Phạm Thị Ngân. Tất cả các tài liệu tham khảo từ các nghiên cứu liên quan đều có nguồn gố c rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không có việ c sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệ u tham khảo. Hà Nội, ngày 13 tháng 05 năm 2013 Sinh viên Bùi Đình Luyến v MỤC LỤC LỜI CẢM ƠN .................................................................................................................i LỜI CAM ĐOAN .........................................................................................................iv MỤC LỤC ......................................................................................................................v DANH SÁCH CÁC BẢNG ........................................................................................ vii DANH SÁCH CÁC HÌNH VẼ ................................................................................. viii DANH SÁCH CÁC TỪ VIẾT TẮT ............................................................................ix MỞ ĐẦU .........................................................................................................................1 Chương 1: ĐẶT VẤN ĐỀ .............................................................................................3 1.1. Động lực và mục đích.........................................................................................3 1.1.1. Nghiên cứu về khai phá dữ liệu Blog .............................................................3 1.1.2. Ảnh hưởng trong Blog ....................................................................................4 1.2. Bài toán xác định ảnh hưởng trên blog ..............................................................5 Chương 2: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN ...............................7 2.1. Phân tích ảnh hưởng trong thế giới blog ............................................................7 2.2. Phương pháp dựa trên chỉ số và phụ thuộc thời gian .........................................8 2.3. Thuật toán IP – Xác định người dùng có ảnh hưởng trên Twitter .....................9 2.4. Họ chỉ số h-index .............................................................................................10 2.4.1. Chỉ số h-index ..............................................................................................10 2.4.2. Chỉ số g-index ..............................................................................................11 2.4.3. Chỉ số R-index ..............................................................................................12 2.4.4. Chỉ số -index ..............................................................................................13 2.4.5. Hệ thống hàm Lotkaian ................................................................................13 2.4.6. Một số quan hệ toán học của họ chỉ số h-index ...........................................15 2.5. Ý tưởng của khóa luận .....................................................................................15 vi Chương 3: MÔ HÌNH GIẢI QUYẾT BÀI TOÁN ...................................................16 3.1. Mô tả bài toán ...................................................................................................16 3.1.1. Định nghĩa blogger có ảnh hưởng ...............................................................16 3.1.2. Đặc trưng của bài viết .................................................................................16 3.1.3. Phát biểu bài toán ........................................................................................18 3.2. Mô hình đề xuất ................................................................................................18 3.2.1. Mô hình dựa trên thuật toán PageRank .......................................................18 3.2.2. Mô hình đề xuất............................................................................................19 Chương 4: THỰC NGHIỆM ......................................................................................24 4.1. Mô tả về tiếp cận thực nghiệm .........................................................................24 4.2. Môi trường thực nghiệm...................................................................................24 4.2.1. Cấu hình phần cứng .....................................................................................24 4.2.2. Các phần mềm sử dụng ................................................................................24 4.3. Tập dữ liệu và mô hình thực nghiệm ...............................................................25 4.3.1. Tập dữ liệu TUAW .......................................................................................25 4.3.2. Mô hình thực nghiệm ...................................................................................25 4.4. Tiến hành thực nghiệm .....................................................................................27 4.4.1. Tiền xử lý dữ liệu..........................................................................................27 4.4.2. Học mô hình .................................................................................................29 4.5. Kết quả thực nghiệm và đánh giá .....................................................................32 4.5.1. Kết quả thực nghiệm ....................................................................................32 4.5.2. Đánh giá mô hình .........................................................................................33 KẾT LUẬN ..................................................................................................................40 vii DANH SÁCH CÁC BẢNG Bảng 2.1: Ưu, nhược điểm của chỉ số h-index...........................................................10 Bảng 2.2: Top 20 bài báo của Leo Egghe giảm dần theo số tham chiếu 4 ...........12 Bảng 3.1: Đặc trưng của một bài viết ........................................................................17 Bảng 4.1: Kết quả điểm ảnh hưởng của các bài viết ................................................31 Bảng 4.2: Ví dụ về sắp xếp và đếm số bài của blogger .............................................31 Bảng 4.3: Ví dụ kết quả h-index .................................................................................32 Bảng 4.4: Kết quả thực nghiệm ..................................................................................32 Bảng 4.5: Hai danh sách top 5 blogger TUAW và iFinder, 25 .............................33 Bảng 4.6: Danh sách top 5 blogger của mô hình đề xuất .........................................33 Bảng 4.7: Thống kê một số đặc điểm của các blogger (SL: số lượng) ....................34 Bảng 4.8: Điểm ảnh hưởng của các blogger khi phân thùng theo chiều rộng .......35 Bảng 4.9: Điểm ảnh hưởng của các blogger khi phân thùng theo chiều sâu .........36 Bảng 4.10: Tác động của thời gian tới thứ hạng blogger .........................................39 Bảng 4.11: Top 5 blogger ảnh hưởng nhất qua thời gian ........................................39 viii DANH SÁCH CÁC HÌNH VẼ Hình 3.1: Dòng ảnh hưởng qua nút , 25. ..............................................................20 Hình 3.2: Mô hình đề xuất ..........................................................................................22 Hình 4.1: Mô hình thực nghiệm của khóa luận ........................................................26 Hình 4.2: Lược đồ cơ sở dữ liệu quan hệ ..................................................................27 Hình 4.3: Class ListLinks............................................................................................28 Hình 4.4: Class Main ...................................................................................................29 Hình 4.5: Biểu đồ thứ hạng top 5 blogger khi phân thùng theo chiều rộng ..........37 Hình 4.6: Biểu đồ thứ hạng top 5 blogger khi phân thùng theo chiều sâu.............38 ix DANH SÁCH CÁC TỪ VIẾT TẮT Tên viết tắt Từ tiếng Anh NIST National Institute of Standards and Technology IR Information Retrieval TUAW The Unofficial Apple Weblog TREC The Text REtrieval Conference 1 MỞ ĐẦU Việc phân tích ảnh hưởng là một chủ đề nghiên cứu quan trọng trong khoa họ c xã hội. Cùng với sự phát triển nhanh chóng của các cộng đồng mạng như mạng xã hộ i Facebook, Twitter hay những trang thương mại điện tử như Amazon, Netflix , phân tích ảnh hưởng đóng vai trò ngày càng quan trọng trong cuộc sống hàng ngày củ a xã hội loài người, trở thành chủ đề nghiên cứu liên lĩnh vực. Nghiên cứu ảnh hưởng củ a các thực thể trong các phương tiện xã hội (social media) không chỉ phục vụ cho mục đích nghiên cứu khoa học, mà còn có ý nghĩa cho nhiều mục đích khác. Ví dụ , phân tích ảnh hưởng sẽ giúp xác định chính xác hơn những ý kiến thăm dò cho các chính trị gia; quảng bá sản phẩm hoặc kiểm soát rủ i ro trong kinh doanh cho các doanh nghiệp... Đã có nhiều nghiên cứu về xác định những thực thể có ảnh hưởng cao, chẳ ng hạn như nghiên cứu của Leonidas Akritidis và cộng sự, 2011 3 dựa vào tính ảnh hưởng của bài viết blog có biến thời gian; hay nghiên cứu củ a Daniel M. Romero và cộng sự, 2011 10 đưa ra thuật toán IP nhằm xác định người dùng Twitter có ảnh hưởng dựa trên tỉ lệ chấp nhận, tỉ lệ từ chối; và gần đây, nghiên cứu củ a Michinari Momma và cộng sự, 2012 24 phân tích ảnh hưởng của các blogger dựa trên các hành động của họ trên logfile của web server, tập trung vào loại hành động có ảnh hưở ng quan trọng đó là viết bài. Mô hình iFinder được Nitin Argawal và cộng sự, 2012 25 đưa ra nhằm xác định những blogger có ảnh hưởng trong cộng đồng blog nhất đị nh. Nhóm tác giả đánh giá độ ảnh hưởng của blogger dựa trên độ ảnh hưởng của nhữ ng bài viết mà blogger đó viết. Dựa trên mô hình iFinder của Nitin Agarwal và cộng sự 25, khóa luận đề xuất mô hình tính toán độ ảnh hưởng của các blogger thông qua chỉ số h-index củ a blogger theo các bài viết của anhcô ta. Điểm khác biệt của khóa luận so với mô hình iFinder đó là iFinder đánh giá ảnh hưởng dựa vào bài viết có ảnh hưởng nhất củ a blogger, trong khi mô hình của khóa luận đề xuất đánh giá độ ảnh hưởng dựa vào tậ p các bài viết của blogger đó. Điểm khác biệt này chính là do khóa luận sử dụng chỉ số h-index được Hirch J.E đưa ra vào năm 2005 13. Do miền giá trị của điểm ảnh hưởng củ a bài viết do mô hình iFinder tính toán thuộc khoảng thực 0,1, nên trước khi sử dụng chỉ số h-index, khóa luận tiến hành phân thùng để chuyển điểm ảnh hưởng của bài viế t sang miền giá trị nguyên dương 1 … N. Tiến hành thực nghiệm mô hình đã đề xuất và tập dữ liệ u TUAW do nhóm tác giả 25 chia sẻ, mặc dù với hai quan điểm khác nhau về độ ảnh hưởng, thực nghiệ m của khóa luận đã tìm được top blogger có ảnh hưởng nhất; trong đó blogger giống 2 với kết quả top của mô hình iFinder. Khóa luận đã tiế n hành phân tích công phu nguyên nhân dẫn đến có sự khác biệt ảnh hưởng của hai blogger trong mỗi mô hình. Hơn nữa, khóa luận còn tiến hành thực nghiệm đánh giá tác động của các phương pháp phân thùng và ảnh hưởng của thời gian tới độ ảnh hưởng của các blogger. Kết quả ban đầu cũng cho thấy tính đúng đắn và hợp lý của mô hình đề xuất, cũng là động lực để khóa luận tiếp tục nghiên cứu, cải tiến mô hình đề xuất. Nội dung của khóa luận gồm 4 chương: Chương 1: Đặt vấn đề Chương này của khóa luận trình bày động lực và mục đích của đề tài khóa luậ n. Bên cạnh đó, khóa luận cũng giới thiệu một cách khái quát về bài toán tìm kiế m blogger có ảnh hưởng trong cộng đồng blog. Chương 2: Các nghiên cứu liên quan Chương này trình bày các nghiên cứu liên quan đến việc xếp hạng, tìm kiế m những blogger có ảnh hưởng trong công trình nghiên cứu của M. Momma và cộng sự 24 và của Leonidas Akritidis và cộng sự 3; tìm kiếm những người có ảnh hưở ng trên Twitter của Daniel M. Romero và cộng sự 10. Cuối cùng, khóa luậ n trình bày nền tảng ý tưởng mô hình của khóa luận dự a trên mô hình iFinder do Nitin Agarwal và cộng sự đề xuất 25 và một số chỉ số thuộc họ chỉ số h- index được Hirsch J.E đưa ra năm 2005 13. Chương 3: Mô hình giải quyết bài toán Chương này mô tả bài toán và trình bày mô hình tìm kiếm những blogger có ảnh hưởng trong một cộng đồng blogger xác định. Khóa luận đề xuất mô hình dự a trên mô hình iFinder do Nitin Agarwal và cộng sự 25 đưa ra và kết hợp tìm chỉ số h-index do Hirsch J.E đề xuất 13 xem như đó là điểm ảnh hưởng của các blogger. Chương 4: Thực nghiệm Trong chương 4, khóa luận trình bày về phần thực nghiệm, bao gồm hướng tiếp cận thực nghiệm, môi trường thực nghiệm, tập dữ liệu và môi trường thực nghiệm, và cuối cùng là các bước tiến hành thực nghiệm, qua đó đưa ra những kết quả, đánh giá mô hình. 3 Chương 1: ĐẶT VẤN ĐỀ 1.1. Động lực và mục đích 1.1.1. Nghiên cứu về khai phá dữ liệu Blog Công trình nghiên cứu của Craig Macdonald và cộng sự, 2010 20 cung cấp mộ t bức tranh tổng thể về khai phá dữ liệu Blog. The Text REtrieval Conference (TREC) là một diễn đàn đang phát triển, được Viện Tiêu chuẩn và Công nghệ quố c gia (National Institute of Standards and Technology: NIST1) tổ chức hàng năm từ năm 1992 nhằm tạo thêm các phương tiện cho nghiên cứu thực nghiệm trong nhữ ng task (bài toán) thu hồi thông tin IR (Information Retrieval). TREC bao gồm nhiề u track (nhánh), mỗi track tập trung vào xây dựng những tổng hợp kiểm tra khác nhau, nhờ đó những hệ thống thu hồi được đánh giá dựa trên khả năng của chúng trong việc xác định những văn bản thích hợp khi thực hiện những truy vấn kiểm tra. Blog track tại TREC được bắt đầu vào năm 2006 với mục đích khám phá những thông tin về hành vi trong thế giới blog. Blog track gồm những bài toán sau: opinion-finding (tìm quan điểm), blog distillation (phân bố blog) và top news identification (định danh các tin tứ c nổi bật). Về tập dữ liệu, đã có hai tập dữ liệu về blog được thu thập và xây d ựng đó là blog06 (được sử dụng trong những năm 2006 - 2008) và blog08 (được sử dụng trong năm 2009). Thế giới blog phản ánh những sự kiện trong đời sống thực, tại đó nhữ ng blogger tác giả của những bài viết thảo luận những ý kiến của họ trong những chủ đề mà họ thấy thích thú. Một vài chủ đề có thể thu hút nhiều blogger trong việc đọc nó hay để lạ i những comment thể hiện ý kiến của họ, một số khác thì ít được thu hút hơn. Trong opinion-finding task được đưa ra tại TREC 2006, mục đích của mỗi truy vấn là xác định ý kiến được thể hiện trong bài viết về một đối tượng nào đó, ví dụ như tên thự c thể, địa danh, tổ chức hay là những khái niệm như tên sản phẩm, sự kiện; có thể tóm gọn trong câu hỏi “Mọi người nghĩ thế nào về X?”. Khai phá quan điểm có một lịch sử phát triển lâu dài trong Xử lý ngôn ngữ tự nhiên, tuy nhiên opinion-finding task là một bước đầu nhằm phân tích hiệu quả của khai phá quan điểm. Có hai phương pháp giả i quyết chính cho task này đó là dựa trên phân lớp và dựa trên từ vựng. Mục đích củ a blog distillation task (lần đầu tại TREC 2007) là giúp những hệ thống có khả năng gợ i ý những blog thích hợp với những truy vấn, có khoảng 150 chủ đề blog được tạo ra ở TREC 2007 và có hai phương pháp chính giải quyết task này. Thứ nhất, coi đây như là 1 http:www.nist.govindex.html 4 một vấn đề lựa chọn tài nguyên trong thu thập thông tin bị phân tán; mục đích là lự a chọn những tài nguyên càng phù hợp với truy vấn được đưa ra càng tốt. Ở trong blog thì được chia làm hai loại văn bản, đó là văn bản lớn chính là những blog, văn bản nhỏ là những bài viết trên blog. Thứ hai, coi blog distillation task như vấn đề tìm kiếm mộ t chuyên gia. Mục đích chính của tìm kiếm chuyên gia đó là tìm kiếm những ngườ i có kiến thức sâu về những chủ đề được quan tâm, tương tự thế, nhiệm vụ đưa ra nhữ ng bài viết thích hợp được xem như là xác định những blogger, là những tác giả củ a những bài viết được quan tâm. Task cuối cùng đó là top news identification task được đưa ra tại TREC 2009, có mục đích đưa ra một gợi ý thứ hạng của những bài mớ i quan trọng nhất được sử dụng cho những hệ thống dùng dữ liệu blog08. Tính đế n TREC 2009 có một vài phương pháp đề xuất giải quyết task này như McCreadie và cộng sự 15 đề suất mô hình dựa trên mô hình Voting Model củ a C. Macdonald và I. Ounis 16; ngoài ra Y. Lee và cộng sự 14 đề xuất mô hình hóa ngôn ngữ để xếp hạ ng những bài mới dựa trên độ quan trọng của chúng theo từng ngày, độ quan trọng này được dựa trên những minh chứng rằng bài viết đó được quan tâm nhiều. Như vậy, hai task cuối trên đây có thể được quan niệm bao gói việc phân tích ảnh hưởng trong thế giới blog và từ đó xác định được các thực thể (blogger hoặ c các bài viết) có ảnh hưởng cao. 1.1.2. Ảnh hưởng trong Blog Phân tích ảnh hưởng là một chủ đề nghiên cứu quan trọng trong khoa học xã hộ i và càng quan trọng hơn trong các cộng đồng trực tuyến như các mạng xã hội: Facebook, Twitter, các trang thương mại điện tử như Amazon, Netflix, đóng mộ t vai trò quan trọng cuộc sống thường này. Michinari Momma và cộng sự 24 cho rằng ảnh hưởng xã hội gồm hai thành phần: thứ nhất là hành vi của một đối tượng độc lập, thứ hai là những hành vi đó ảnh hưởng, tác động đến đối tượng khác. Thành phần thứ hai chính là xác định ảnh hưởng của các mối liên kết. Việc xác định những blogger có ảnh hưởng nhất mang lại nhiều lợi ích, như việ c tìm ra những cơ hội kinh doanh mới, giả mạo những nghị sự chính trị, những cuộ c thảo luận xã hội, những lợi tức xã hội và nhiều ứng dụng khác. Mặt tiêu cực, nhữ ng blogger có ảnh hưởng có thể làm dao động những ý kiến trong những chiến dị ch chính trị, bầu cử và những tác động phản ứng lại chính phủ. Xác định được những blogger có ảnh hưởng có thể giúp hiểu được những thay đổi, những bẫy giả mạo chính trị hay những điều tương tự, và có những kế hoạch thích hợp, kịp thời, có chuẩn bị trước để ứng phó. Mặt khác, những blogger có ảnh hưởng cũng mang đến sự hỗ trợ và giải 5 pháp, sự tin tưởng cho khách hàng thông qua những kinh nghiệm họ có, về mặ t mua bán hay kêu gọi cộng đồng cùng chung tay thực hiện nhữ ng phong trào mang tính tích cực. Ví dụ, về lĩnh vực mua sắm thì những blogger có ảnh hưởng sẽ ảnh hưởng đế n một phần lớn những quyết định mua sắm của những người khác, nhận thức được điề u này, các công ty có những chiến dịch maketing thông minh là dựa vào nhữ ng blogger này. Theo báo cáo của T. Elkin, 2007 8 thì có những công ty quảng cáo nắ m bắt được điều này và thực hiện việc đặt những quảng cáo lên những trang blog củ a những blogger có ảnh hưởng. Theo báo cáo được công bố trên Technorati2 vào 452007 số lượng blog tăng theo chu trình sáu tháng; Blogpulse3, mộ t trang web theo dõi và xếp hạng các trang blog, vào ngày 12122010 đã theo dõi hơn 150,000 blog và hơn 848,000 bài viết mỗi ngày. Với sự lớn lên nhanh chóng về số lượng blog, blogger và bài viết thì cần phải có những phương pháp mới nhằm xác định được thứ hạng của những blog, blogger, bài viết đó. Mục đích của khóa luận là đề xuất một mô hình nhằm xác định được thứ hạ ng của những blogger, mà nền tảng là việc tính toán được điểm ảnh hưởng của nhữ ng bài viết do họ viết. Và việc tìm tập những blogger có ảnh hưởng nhất từ danh sách đã xế p hạng là dễ dàng. 1.2. Bài toán xác định ảnh hưởng trên blog Nghiên cứu ảnh hưởng của blogger là tìm ra những blogger có ảnh hưởng nhấ t trong cộng đồng, từ đó có thể đưa ra những thông tin thiết thực, đáng tin cậy cho con người trong thế giới ảo cũng như thực, phân tích thông tin, đưa ra các tiềm năng kinh doanh, hay những bất ổn trong đời sống xã hội,...Dựa trên những mối quan hệ giữ a các blogger, dựa trên các bài đăng của blog, những yếu tố liên quan đến các bài đăng đó, đưa ra đánh giá về độ ảnh hưởng của chúng. Từ những dữ liệu sẵ n có, phân tích chúng thành những yếu tố đơn giản hơn, xem xét ảnh hưởng của chúng đối với cộng đồng như thế nào, và đưa ra một đơn vị để đo ảnh hưởng của chúng, tổng hợp lại và dự a trên dữ liệu tổng hợp được để đánh giá. Để đánh giá ảnh hưởng của một blogger dựa vào những bài viết mà họ viế t. Có nhiều yếu tố ảnh hưởng đến bài viết. Một bài viết có thể được nhiề u blogger tham chiếu đến thì chứng tỏ bài viết đó có ảnh hưởng vì nó được quan tâm, được nêu ra như 2 http:technorati.com 3 http:www.blogpulse.com 6 là một dẫn chứng của bài viết khác. Số comment mà nó nhận được thể hiện sự quan tâm về nội dung, ý tưởng của bài viết và dẫn đến những cuộc thảo luận thể hiệ n qua comment. Bài viết có tính thuyết phục, có lập luận chặt chẽ, có minh chứng cụ thể sẽ nhận được sự đồng ý, tán thành của người đọc. Bên cạnh đó, cũng không thể không kể đến yếu tố thời gian có thể làm giảm đi sự ảnh hưởng của bài viết. Tuy nhiên ở trong mô hình của khóa luận không xét đến yếu tố thời gian. 7 Chương 2: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 2.1. Phân tích ảnh hưởng trong thế giới blog Những công trình trước đây nghiên cứu về độ ảnh hưởng trong cộng đồng mạ ng chủ yếu là dựa vào những thống kê, tuy nhiên rất ít công trình thành công theo hướ ng này. Một giới hạn của những phương pháp thống kê là không xác định trực tiếp đượ c hành vi của người dùng, mà phải gián tiếp hoặc bằng kinh nghiệm, điều này sẽ không chính xác do có nhiều kênh gây nhiễu. M. Momma và cộng sự 24 đã đề xuất mô hình xác định ảnh hưởng giữa các blogger trong cộng đồng blog với độ tin cậy cao bằ ng việc xử lý những file log của web server. Phương pháp này không chỉ xác định đượ c blogger nào có ảnh hưởng mà còn xác định được họ ảnh hưởng ở những chủ đề nào, ảnh hưởng đến những blogger nào. Theo nhóm tác giả, ảnh hưởng xã hội gồ m hai thành phần chính đó là suy nghĩ và hành động, suy nghĩ và hành động của ngườ i này có thể bị ảnh hưởng bởi suy nghĩ và hành động của những người khác. Dựa trên điều này, ý tưởng chính của mô hình gồm hành động và nguyên nhân. Hành động chủ yếu trên blog đó là đọc và viết một bài viết. Blogger đọ c bài viết do blogger viết, tuy nhiên blogger thường không biết nội dung của trướ c khi chọn đọc, hoặc là một người rất hay đọc những bài do viết, không bỏ sót bấ t cứ bài nào, điều này cho thấy hành động đọc không có tác dụng nhiều trong việc xác định ảnh hưởng giữa những blogger. M. Momma và cộng sự tập trung vào khai thác hành động viết. Có nhiều yếu tố ảnh hưởng đến bài viết của như những kiến thứ c từ những nguồn tài liệu khác, TV…, tuy nhiên nếu chỉ xét riêng trong cộng đồ ng blog thì chỉ tính toán độ ảnh hưởng qua việc đã đọc do viết trước khi viết , gọi mối liên kết này là liên kết ngầm và nó được xác định như là một trọng số thông qua một khung thời gian từ khi đọc tới khi viết . Thời gian này càng lâu thì giá trị của liên kết ngầm càng nhỏ. Có thể có hai giải thích cho mối liên kết ngầm giữa và đó là đọc , bị ảnh hưởng và viết như là một kết quả, đây là quan hệ nguyên nhân giữa và . Về giả i thích thứ hai, có thể đọc trong khi viết hoặc trước khi viết , tuy nhiên về nộ i dung lại không bị ảnh hưởng, vì thế có thể coi và có liên quan với nhau. M. Momma và cộng sự định nghĩa về ảnh hưởng như sau: bài viết (do blogger viết) bị ảnh hưởng bởi bài viết (do blogger B viết) nếu được viết trong vòng giờ sau khi đọc và giống hơn tất cả những bài viết mà đã đọc trướ c khi viết trong vòng giờ. 8 Trong khoa học xã hội, có một vài nhân tố được xem là quyết định đến ảnh hưởng nhưng danh tiếng là yếu tố quan trọng nhất. Hệ quả, blogger đọc nhữ ng bài viết của blogger hoàn toàn do danh tiếng của thuộc một chủ đề nào đó. Top blogger được Technorati liệt kê đa phần mỗi blogger chỉ có danh tiếng về một lĩnh vực, chủ đề nhất định (chính trị, xã hội, thể thao...), bởi vì mỗi người thường chỉ quen với một lĩnh vực riêng mà họ tập trung vào. Do đó, sự ảnh hưởng cần được đánh giá khác nhau theo mỗi chủ đề. Cũng tương tự như thế, trong mỗi chủ đề riêng biệt, sự ảnh hưởng hoặc bị ảnh hưởng lẫn nhau giữa những blogger là khác nhau. 2.2. Phương pháp dựa trên chỉ số và phụ thuộc thời gian Leonidas Akritidis và cộng sự 3 đề xuất mô hình cũng dựa trên những đặc điể m của một bài viết như độ dài, số lượng comment, liên kết đến inlinks, liên kết đi outlink… và đặc biệt có xét đến một khía cạnh khác ảnh hưởng đến bài viết đó là thờ i gian, yếu tố cần thiết trong cộng đồng blog thay đổi một cách nhanh chóng. Điểm củ a bài viết được tính như sau: ̅ ( ) Trong đó là độ dài của bài viết thứ của blogger ; là độ dài trung bình củ a bài viết; là nhãn thời gian của bài viết, là biến thời gian; là các hằng số được xác định trước. Dựa trên công thức (1), nhóm tác giả đã đưa ra một loại chỉ số để xác định ảnh hưởng của blogger là chỉ số BP-index, chỉ số này dựa vào tuổi của bài viết: Trong mộ t khoảng thời gian t, một blogger j có BP-index bằng Ptj Nếu Ptj của tập các bài viết của blogger(jN ) có điểm số j piU , (t) >=Ptj và phần còn lạijN -Ptj có điểm số là j piU , (t) 361), ở vị trị thì . 12 Bảng 2.2: Top 20 bài báo của Leo Egghe giảm dần theo số tham chiếu 4 47 42 37 36 21 18 17 16 16 16 15 13 13 13 13 12 12 12 12 11 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 47 89 126 162 183 201 218 234 250 266 281 294 307 320 333 345 357 369 381 392 1 4 9 16 25 36 49 64 81 100 121 144 169 196 225 256 289 324 261 400 2.4.3. Chỉ số R-index Chỉ số A-index do Buih Jin, 2006 12 đề xuất cũng có mục đích giống vớ i g- index, chỉ số này được định nghĩa đơn giản như là trung bình số tham chiế u mà các bài báo nhận được theo điểm Hirsch (h-index), công thức như sau: ∑ Trong đó số lượng tham chiếu được sắp xếp giảm dần. Rõ ràng, nhưng trong trường hợp sau thì điều này lại không đúng. Ví dụ tác giả công bố bài báo, có một bài có số lượng tham chiếu là , còn lại có số lượng tham chiếu là ; tác giả công bố bài trong đó cũng có một bài có số lượng tham chiếu là , còn lại có số lượng tham chiếu là 2. Rõ ràng, tác giả cần được đánh giá tốt hơn, h -index thể hiện rõ điều này và , nhưng A-index lại không khi và . Điều này là do A-index phải chia cho , vấn đề này có thể được giải quyế t bằng cách chỉ lấy mỗi tổng, hoặc căn bậc hai của tổng. 13 Buih Jin và cộng sự, 2007 7 đưa ra chỉ số R-index như sau: √∑ Rõ ràng √ và trong trường hợp số lượng tham chiếu ít nhấ t bằng , trong trường hợp mọi bài trong top h đều có đúng một lượ ng tham chiếu là . 2.4.4. Chỉ số -index Cũng thể hiện được ưu điểm giống g-index so vớ i h-index, Peter Vinkler, 2009 23 đã đưa ra chỉ số -index xem như là một chỉ số đánh giá các nhà khoa học. - index cũng có điểm giống với R-index là xác định số lượng tham chiếu đến tập gồ m những bài báo có số lượng tham chiếu nhiều nhất của một tác giả, gọi là tập tốt nhất . Nếu như số lượng thành phần tập tốt nhất của R-index được giới hạn chính bằ ng giá trị h-index thì số lượng thành phần của tập này của -index là √ , trong đó là tổ ng số bài báo. ISI Web of Science (Essential Science Indicators) đưa ra một số ngưỡng đối với những bài báo trong tập tốt nhất như và . Coi số lượng bài báo của tập tốt nhất là √ , các bài báo được sắp xếp giả m dần theo số lượng tham chiếu đến chúng, gọi là tổng số lượng tham chiếu đến tập tốt nhất, -index được Peter Vinkler định nghĩa theo công thức sau: 2.4.5. Hệ thống hàm Lotkaian Luật Lotka (đưa ra năm 1926) được lấy theo tên của nhà toán học, nhà hóa họ c vật lý và nhà thống kê học người người Mỹ Alfred James Lotka (1880-1949), là mộ t dạng ứng dụng đặc biệt của luật Zipf. Luật Lotka đưa ra rằng số lượng tác giả với (với ) số lượng công bố (bài báo) tỉ lệ với , trong đó ( phụ thuộc vào lĩnh vực như Vật lý, Hóa học, IT, …), Hay nói cách khác, nếu có hằng số thì: 14 Trong đó kí hiệu là số lượng tác giả của bài báo. Một cách tổng quan hơn, có thể kí hiệu cho số lượng nguồn (tác giả, tạp chí, từ loại…) với sản phẩm (bài báo khoa học, bài báo tạp chí, sự xuất hiện từ…). Áp dụng của luật Zipf trong lĩnh vực ngôn ngữ (từ loại và sự xuất hiện từ) trong trường hợp tổng quát: nếu sắp xếp các nguồn giảm theo số lượng sản phẩm giảm dầ n thì thứ hạng của nguồn tỉ lệ với với . Hay nếu có hằng số , thì thể hiện số lượng sản phẩm của nguồn thứ tính bởi công thức sau: Mặc dù các thông tin có thể khác nhau nhưng về logic toán học thì hai hàm là giống nhau, đều thể hiện luật giảm (hàm nghịch biến). Hệ thống hàm Lotkaian được Leo Egghe và Ronald Rousseau đưa ra năm 2006 19 sử dụng luật Lotka như trình bày trên đây. Theo đó, nguồn ở đây xác đị nh là bài báo khoa học của tác giả nào đó và sản phẩm là số lượng tham chiếu mà nó nhận được. Với , số lượng bài báo là thì chỉ số h-index được tính theo công thức sau: Với , g-index, R-index và -index được tính toán theo công thức sau: ( ) ( ) √ √ 15 2.4.6. Một số quan hệ toán học của họ chỉ số h-index Vào năm 2011, Leo Egghe 6 đưa ra một số quan hệ toán học của một số chỉ số thuộc họ chỉ số h-index và chứng minh được các quan hệ này. Giả sử có hai tác giả vớ i các chỉ số lần lượt tương ứng; kí hiệu là tổng số bài báo củ a hai tác giả, với ; các chỉ số có một số quan hệ sau: Quan hệ giữa h-index và R-index Điều kiện Quan hệ Quan hệ giữa h-index và g-index Điều kiện Quan hệ 2.5. Ý tưởng của khóa luận Khóa luận đề xuất mô hình dựa trên mô hình của Nitin Agarwal và cộng sự 25 bằng cách tính toán độ ảnh hưởng của blogger bằng độ đo h-index củ a blogger theo các bài viết của blogger đó. Trong 25, độ ảnh hưởng của một bài blog có giá trị thuộc đoạn . Để áp dụng độ đo h-index, khóa luận sẽ sử dụng phương pháp đóng thùng để chuyển miền giá trị thực sang miền giá trị nguyên 1…N. Ngoài việc áp dụng chỉ số h-index, khóa luận còn thực hiện một số thực nghiệm tính toán độ ảnh hưởng của các blogger dựa trên các chỉ số thuộc họ h-index đã trình bày ở trên. 16 Chương 3: MÔ HÌNH GIẢI QUYẾT BÀI TOÁN 3.1. Mô tả bài toán 3.1.1. Định nghĩa blogger có ảnh hưởng Mỗi bài viết trên blog thường có những thông tin đi kèm với nó như tên blogger, thời gian bài viết đó được gửi, số lượng comment nhận được. Không những thế, vớ i những nguồn tổng hợp thì bao gồm cả thông tin khác của bài viết như: outlinks – những liên kết tham chiếu đến những bài viết, website khác từ một bài viết; inlinks – những bài viết, website khác tham chiếu đến bài viết đang xét. Đánh giá một blogger có ảnh hưởng tốt hay không thì cần phải đánh giá xem những bài viết của blogger đó có ảnh hưởng như thế nào tới nhữ ng blogger khác trong cộng đồng. Phải nhận thấy một điều rằng không phải blogger nào tích cực hoạt độ ng viết nhiều bài, nhận được nhiều comment thì được xem là có ảnh hưởng, bởi vì có thể đó chỉ là những bài không có tính thuyết phục, không thu hút, nhữ ng comment thì có thể có nhiều spam… Nhóm tác giả 25 quan niệm rằng blogger có ảnh hưởng thì phả i có một hoặc nhiều bài viết có ảnh hưởng. Thừa kế quan niệm này, khóa luận áp dụng thêm đặc điểm của chỉ số h-index 13 đưa ra định nghĩa về blogger có ảnh hưởng như sau: Định nghĩa: Một blogger được xem như có ảnh hưởng nếu như là số nguyên dương lớn nhất mà blogger này có đúng bài viết có độ ảnh hưởng ít nhất là . Giả sử có điểm ảnh hưởng của bài viết là , một blogger có thể có nhiề u bài viết, một vài trong số đó có điểm ảnh hưởng tốt hơn những bài viết còn lại. Như vậy với mỗi blogger sẽ có một...
Trang 1LỜI CẢM ƠN
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS TS Hà Quang Thụy, Ths Phạm Thị Ngân đã tận tình hướng dẫn và chỉ bảo tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp
Tôi xin chân thành cảm ơn các thầy, cô trong trường Đại học Công Nghệ - Đại học Quốc gia Hà Nội đã tạo mọi điều kiện thuận lợi cho tôi học tập và nghiên cứu Tôi cũng xin gửi lời cảm ơn đến các thầy cô, các anh chị, các bạn trong phòng thí nghiệm KT-Lab đã hỗ trợ tôi rất nhiều về kiến thức chuyên môn trong quá trình thực hiện khóa luận Tôi xin cảm ơn các bạn trong lớp K54CLC đã ủng hộ và khuyến khích tôi trong suốt suốt quá trình học tập tại trường
Cuối cùng, tôi xin được gửi cám ơn vô hạn tới gia đình và bạn bè, những người
đã luôn bên cạnh, giúp và động viên tôi trong quá trình học tập cũng như trong suốt quá trình thực hiện khóa luận này
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 13 tháng 05 năm 2013
Sinh viên
Bùi Đình Luyến
Trang 2MÔ HÌNH HÓA ẢNH HƯỞNG CỦA BLOGGER TRONG CỘNG ĐỘNG
DỰA TRÊN HỌ ĐỘ ĐO H-INDEX
Bùi Đình Luyến
Khóa QH-2009-I/CQ, ngành Công nghệ thông tin
Tóm tắt khóa luận tốt nghiệp:
Ảnh hưởng xã hội xảy ra khi hành động của một người kéo theo các hành động của những người khác Nếu được khai thác tốt, ảnh hưởng xã hội mang lại rất nhiều ứng dụng mà điển hình là tiếp thị (quảng cáo hướng đối tượng), hệ thống đề nghị, phân tích mạng xã hội, phát hiện sự kiện, tìm kiếm chuyên gia, đoán biết liên kết, xếp hạng… [9, 25] Trong vài ba năm gần đây, phân tích ảnh hưởng trong mạng xã hội nhận được sự quan tâm đặc biệt của cộng đồng nghiên cứu hàn lâm cũng như công nghiệp và nhiều công trình nghiên cứu đã được công bố
Trên cơ sở mô hình iFinder đánh giá độ ảnh hưởng của blogger thông qua những bài viết của blogger được Nitin Agarwal và cộng sự đề xuất [25], khóa luận đề xuất một mô hình
mô hình hóa ảnh hưởng của blogger trong cộng đồng theo họ độ đo h-index [4, 7, 13, 23] theo
độ ảnh hưởng của bài viết được iFinder xác định Phương pháp phân thùng được khóa luận sử dụng để chuyển giá trị thực thuộc đoạn [0 1] sang các giá trị nguyên phù hợp với tính toán theo họ độ đo h-index Bằng thực nghiệm công phu trên kho dữ liệu blog TUAW, khóa luận
đã minh chứng được tính khoa học và thực tiễn của mô hình đề xuất
Từ khóa: Ảnh hưởng, blogger, iFinder, h-index
Trang 3MODELING THE INFLUENCE OF BLOGGERS IN THEIR COMMUNITY
BASED ON THE H-INDEX MEASUREMENTS
Bui Dinh Luyen
QH-2009-I/CQ course, Information technology faculty
Abstract:
Social influence occurs when a person's actions led to the actions of others If fully exploited, social influence brought a lot of applications that are typical marketing (object oriented advertising), recommender systems, social network analysis, event detection, experts finding, link prediction, ranking etc [9, 25] In several recent years, social influence analysis
of social networking to get special attention of the community as well as academic research and industrial research works have been published
Based on iFinder model, the evaluation influence of bloggers through blogger posts Nitin Agarwal and colleagues proposed in 2012 [25], the thesis proposes a model to model the influence of bloggers in the community as the h-index measurements [4, 7, 13, 23] under the influence posts point which identified by iFinder Binning methods are used to transfer real value in the interval to match the value calculated by the h-index measurements With elaborate experiments on TUAW blog database, the thesis demonstrates the science and practice of the proposed model
Keywords: Influence, blogger, iFinder, h-index
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan mô hình tính toán độ ảnh hưởng của blogger của khóa luận áp dụng họ chỉ số h-index và phương pháp phân thùng dựa trên mô hình iFinder, các thực nghiệm là do tôi thực hiện dưới sự hướng dẫn của PGS TS Hà Quang Thụy và ThS Phạm Thị Ngân
Tất cả các tài liệu tham khảo từ các nghiên cứu liên quan đều có nguồn gốc rõ ràng từ danh mục tài liệu tham khảo trong khóa luận Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo
Hà Nội, ngày 13 tháng 05 năm 2013
Sinh viên
Bùi Đình Luyến
Trang 5MỤC LỤC
LỜI CẢM ƠN i
LỜI CAM ĐOAN iv
MỤC LỤC v
DANH SÁCH CÁC BẢNG vii
DANH SÁCH CÁC HÌNH VẼ viii
DANH SÁCH CÁC TỪ VIẾT TẮT ix
MỞ ĐẦU 1
Chương 1: ĐẶT VẤN ĐỀ 3
1.1 Động lực và mục đích 3
1.1.1 Nghiên cứu về khai phá dữ liệu Blog 3
1.1.2 Ảnh hưởng trong Blog 4
1.2 Bài toán xác định ảnh hưởng trên blog 5
Chương 2: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 7
2.1 Phân tích ảnh hưởng trong thế giới blog 7
2.2 Phương pháp dựa trên chỉ số và phụ thuộc thời gian 8
2.3 Thuật toán IP – Xác định người dùng có ảnh hưởng trên Twitter 9
2.4 Họ chỉ số h-index 10
2.4.1 Chỉ số h-index 10
2.4.2 Chỉ số g-index 11
2.4.3 Chỉ số R-index 12
2.4.4 Chỉ số -index 13
2.4.5 Hệ thống hàm Lotkaian 13
2.4.6 Một số quan hệ toán học của họ chỉ số h-index 15
2.5 Ý tưởng của khóa luận 15
Trang 6Chương 3: MÔ HÌNH GIẢI QUYẾT BÀI TOÁN 16
3.1 Mô tả bài toán 16
3.1.1 Định nghĩa blogger có ảnh hưởng 16
3.1.2 Đặc trưng của bài viết 16
3.1.3 Phát biểu bài toán 18
3.2 Mô hình đề xuất 18
3.2.1 Mô hình dựa trên thuật toán PageRank 18
3.2.2 Mô hình đề xuất 19
Chương 4: THỰC NGHIỆM 24
4.1 Mô tả về tiếp cận thực nghiệm 24
4.2 Môi trường thực nghiệm 24
4.2.1 Cấu hình phần cứng 24
4.2.2 Các phần mềm sử dụng 24
4.3 Tập dữ liệu và mô hình thực nghiệm 25
4.3.1 Tập dữ liệu TUAW 25
4.3.2 Mô hình thực nghiệm 25
4.4 Tiến hành thực nghiệm 27
4.4.1 Tiền xử lý dữ liệu 27
4.4.2 Học mô hình 29
4.5 Kết quả thực nghiệm và đánh giá 32
4.5.1 Kết quả thực nghiệm 32
4.5.2 Đánh giá mô hình 33
KẾT LUẬN 40
Trang 7DANH SÁCH CÁC BẢNG
Bảng 2.1: Ưu, nhược điểm của chỉ số h-index 10
Bảng 2.2: Top 20 bài báo của Leo Egghe giảm dần theo số tham chiếu [4] 12
Bảng 3.1: Đặc trưng của một bài viết 17
Bảng 4.1: Kết quả điểm ảnh hưởng của các bài viết 31
Bảng 4.2: Ví dụ về sắp xếp và đếm số bài của blogger 31
Bảng 4.3: Ví dụ kết quả h-index 32
Bảng 4.4: Kết quả thực nghiệm 32
Bảng 4.5: Hai danh sách top 5 blogger TUAW và iFinder, [25] 33
Bảng 4.6: Danh sách top 5 blogger của mô hình đề xuất 33
Bảng 4.7: Thống kê một số đặc điểm của các blogger (SL: số lượng) 34
Bảng 4.8: Điểm ảnh hưởng của các blogger khi phân thùng theo chiều rộng 35
Bảng 4.9: Điểm ảnh hưởng của các blogger khi phân thùng theo chiều sâu 36
Bảng 4.10: Tác động của thời gian tới thứ hạng blogger 39
Bảng 4.11: Top 5 blogger ảnh hưởng nhất qua thời gian 39
Trang 8DANH SÁCH CÁC HÌNH VẼ
Hình 3.1: Dòng ảnh hưởng qua nút , [25] 20
Hình 3.2: Mô hình đề xuất 22
Hình 4.1: Mô hình thực nghiệm của khóa luận 26
Hình 4.2: Lược đồ cơ sở dữ liệu quan hệ 27
Hình 4.3: Class ListLinks 28
Hình 4.4: Class Main 29
Hình 4.5: Biểu đồ thứ hạng top 5 blogger khi phân thùng theo chiều rộng 37
Hình 4.6: Biểu đồ thứ hạng top 5 blogger khi phân thùng theo chiều sâu 38
Trang 9DANH SÁCH CÁC TỪ VIẾT TẮT
Technology
Trang 10MỞ ĐẦU
Việc phân tích ảnh hưởng là một chủ đề nghiên cứu quan trọng trong khoa học
xã hội Cùng với sự phát triển nhanh chóng của các cộng đồng mạng như mạng xã hội Facebook, Twitter hay những trang thương mại điện tử như Amazon, Netflix, phân tích ảnh hưởng đóng vai trò ngày càng quan trọng trong cuộc sống hàng ngày của xã hội loài người, trở thành chủ đề nghiên cứu liên lĩnh vực Nghiên cứu ảnh hưởng của các thực thể trong các phương tiện xã hội (social media) không chỉ phục vụ cho mục đích nghiên cứu khoa học, mà còn có ý nghĩa cho nhiều mục đích khác Ví dụ, phân tích ảnh hưởng sẽ giúp xác định chính xác hơn những ý kiến thăm dò cho các chính trị gia; quảng bá sản phẩm hoặc kiểm soát rủi ro trong kinh doanh cho các doanh nghiệp Đã có nhiều nghiên cứu về xác định những thực thể có ảnh hưởng cao, chẳng hạn như nghiên cứu của Leonidas Akritidis và cộng sự, 2011 [3] dựa vào tính ảnh hưởng của bài viết blog có biến thời gian; hay nghiên cứu của Daniel M Romero và cộng sự, 2011 [10] đưa ra thuật toán IP nhằm xác định người dùng Twitter có ảnh
hưởng dựa trên tỉ lệ chấp nhận, tỉ lệ từ chối; và gần đây, nghiên cứu của Michinari
Momma và cộng sự, 2012 [24] phân tích ảnh hưởng của các blogger dựa trên các hành động của họ trên logfile của web server, tập trung vào loại hành động có ảnh hưởng
quan trọng đó là viết bài Mô hình iFinder được Nitin Argawal và cộng sự, 2012 [25]
đưa ra nhằm xác định những blogger có ảnh hưởng trong cộng đồng blog nhất định Nhóm tác giả đánh giá độ ảnh hưởng của blogger dựa trên độ ảnh hưởng của những bài viết mà blogger đó viết
Dựa trên mô hình iFinder của Nitin Agarwal và cộng sự [25], khóa luận đề xuất
mô hình tính toán độ ảnh hưởng của các blogger thông qua chỉ số h-index của blogger theo các bài viết của anh/cô ta Điểm khác biệt của khóa luận so với mô hình iFinder
đó là iFinder đánh giá ảnh hưởng dựa vào bài viết có ảnh hưởng nhất của blogger, trong khi mô hình của khóa luận đề xuất đánh giá độ ảnh hưởng dựa vào tập các bài viết của blogger đó Điểm khác biệt này chính là do khóa luận sử dụng chỉ số h-index được Hirch J.E đưa ra vào năm 2005 [13] Do miền giá trị của điểm ảnh hưởng của bài viết do mô hình iFinder tính toán thuộc khoảng thực [0,1], nên trước khi sử dụng chỉ
số h-index, khóa luận tiến hành phân thùng để chuyển điểm ảnh hưởng của bài viết
sang miền giá trị nguyên dương [1 … N]
Tiến hành thực nghiệm mô hình đã đề xuất và tập dữ liệu TUAW do nhóm tác giả [25] chia sẻ, mặc dù với hai quan điểm khác nhau về độ ảnh hưởng, thực nghiệm của khóa luận đã tìm được top blogger có ảnh hưởng nhất; trong đó blogger giống
Trang 11với kết quả top của mô hình iFinder Khóa luận đã tiến hành phân tích công phu nguyên nhân dẫn đến có sự khác biệt ảnh hưởng của hai blogger trong mỗi mô hình Hơn nữa, khóa luận còn tiến hành thực nghiệm đánh giá tác động của các phương pháp phân thùng và ảnh hưởng của thời gian tới độ ảnh hưởng của các blogger Kết quả ban đầu cũng cho thấy tính đúng đắn và hợp lý của mô hình đề xuất, cũng là động lực để khóa luận tiếp tục nghiên cứu, cải tiến mô hình đề xuất
Nội dung của khóa luận gồm 4 chương:
Chương 1: Đặt vấn đề
Chương này của khóa luận trình bày động lực và mục đích của đề tài khóa luận Bên cạnh đó, khóa luận cũng giới thiệu một cách khái quát về bài toán tìm kiếm blogger có ảnh hưởng trong cộng đồng blog
Chương 2: Các nghiên cứu liên quan
Chương này trình bày các nghiên cứu liên quan đến việc xếp hạng, tìm kiếm những blogger có ảnh hưởng trong công trình nghiên cứu của M Momma và cộng sự [24] và của Leonidas Akritidis và cộng sự [3]; tìm kiếm những người có ảnh hưởng trên Twitter của Daniel M Romero và cộng sự [10] Cuối cùng, khóa luận trình bày nền tảng ý tưởng mô hình của khóa luận dựa trên mô hình iFinder do Nitin Agarwal và cộng sự đề xuất [25] và một số chỉ số thuộc họ chỉ số h-index được Hirsch J.E đưa ra năm 2005 [13]
Chương 3: Mô hình giải quyết bài toán
Chương này mô tả bài toán và trình bày mô hình tìm kiếm những blogger có ảnh hưởng trong một cộng đồng blogger xác định Khóa luận đề xuất mô hình dựa trên mô hình iFinder do Nitin Agarwal và cộng sự [25] đưa ra và kết hợp tìm chỉ số h-index do Hirsch J.E đề xuất [13] xem như đó là điểm ảnh hưởng của các blogger
Chương 4: Thực nghiệm
Trong chương 4, khóa luận trình bày về phần thực nghiệm, bao gồm hướng tiếp cận thực nghiệm, môi trường thực nghiệm, tập dữ liệu và môi trường thực nghiệm, và cuối cùng là các bước tiến hành thực nghiệm, qua đó đưa ra những kết quả, đánh giá
mô hình
Trang 12Chương 1: ĐẶT VẤN ĐỀ 1.1 Động lực và mục đích
1.1.1 Nghiên cứu về khai phá dữ liệu Blog
Công trình nghiên cứu của Craig Macdonald và cộng sự, 2010 [20] cung cấp một
bức tranh tổng thể về khai phá dữ liệu Blog The Text REtrieval Conference (TREC)
là một diễn đàn đang phát triển, được Viện Tiêu chuẩn và Công nghệ quốc gia (National Institute of Standards and Technology: NIST1) tổ chức hàng năm từ năm
1992 nhằm tạo thêm các phương tiện cho nghiên cứu thực nghiệm trong những task (bài toán) thu hồi thông tin IR (Information Retrieval) TREC bao gồm nhiều track (nhánh), mỗi track tập trung vào xây dựng những tổng hợp kiểm tra khác nhau, nhờ đó những hệ thống thu hồi được đánh giá dựa trên khả năng của chúng trong việc xác định những văn bản thích hợp khi thực hiện những truy vấn kiểm tra Blog track tại TREC được bắt đầu vào năm 2006 với mục đích khám phá những thông tin về hành vi trong thế giới blog Blog track gồm những bài toán sau: opinion-finding (tìm quan điểm), blog distillation (phân bố blog) và top news identification (định danh các tin tức nổi bật) Về tập dữ liệu, đã có hai tập dữ liệu về blog được thu thập và xây dựng đó là blog06 (được sử dụng trong những năm 2006 - 2008) và blog08 (được sử dụng trong năm 2009)
Thế giới blog phản ánh những sự kiện trong đời sống thực, tại đó những blogger tác giả của những bài viết thảo luận những ý kiến của họ trong những chủ đề mà họ thấy thích thú Một vài chủ đề có thể thu hút nhiều blogger trong việc đọc nó hay để lại những comment thể hiện ý kiến của họ, một số khác thì ít được thu hút hơn Trong opinion-finding task được đưa ra tại TREC 2006, mục đích của mỗi truy vấn là xác định ý kiến được thể hiện trong bài viết về một đối tượng nào đó, ví dụ như tên thực thể, địa danh, tổ chức hay là những khái niệm như tên sản phẩm, sự kiện; có thể tóm gọn trong câu hỏi “Mọi người nghĩ thế nào về X?” Khai phá quan điểm có một lịch sử phát triển lâu dài trong Xử lý ngôn ngữ tự nhiên, tuy nhiên opinion-finding task là một bước đầu nhằm phân tích hiệu quả của khai phá quan điểm Có hai phương pháp giải quyết chính cho task này đó là dựa trên phân lớp và dựa trên từ vựng Mục đích của blog distillation task (lần đầu tại TREC 2007) là giúp những hệ thống có khả năng gợi
ý những blog thích hợp với những truy vấn, có khoảng 150 chủ đề blog được tạo ra ở TREC 2007 và có hai phương pháp chính giải quyết task này Thứ nhất, coi đây như là
1
http://www.nist.gov/index.html
Trang 13một vấn đề lựa chọn tài nguyên trong thu thập thông tin bị phân tán; mục đích là lựa chọn những tài nguyên càng phù hợp với truy vấn được đưa ra càng tốt Ở trong blog thì được chia làm hai loại văn bản, đó là văn bản lớn chính là những blog, văn bản nhỏ
là những bài viết trên blog Thứ hai, coi blog distillation task như vấn đề tìm kiếm một chuyên gia Mục đích chính của tìm kiếm chuyên gia đó là tìm kiếm những người có kiến thức sâu về những chủ đề được quan tâm, tương tự thế, nhiệm vụ đưa ra những bài viết thích hợp được xem như là xác định những blogger, là những tác giả của những bài viết được quan tâm Task cuối cùng đó là top news identification task được đưa ra tại TREC 2009, có mục đích đưa ra một gợi ý thứ hạng của những bài mới quan trọng nhất được sử dụng cho những hệ thống dùng dữ liệu blog08 Tính đến TREC
2009 có một vài phương pháp đề xuất giải quyết task này như McCreadie và cộng sự [15] đề suất mô hình dựa trên mô hình Voting Model của C Macdonald và I Ounis [16]; ngoài ra Y Lee và cộng sự [14] đề xuất mô hình hóa ngôn ngữ để xếp hạng những bài mới dựa trên độ quan trọng của chúng theo từng ngày, độ quan trọng này được dựa trên những minh chứng rằng bài viết đó được quan tâm nhiều
Như vậy, hai task cuối trên đây có thể được quan niệm bao gói việc phân tích ảnh hưởng trong thế giới blog và từ đó xác định được các thực thể (blogger hoặc các bài viết) có ảnh hưởng cao
1.1.2 Ảnh hưởng trong Blog
Phân tích ảnh hưởng là một chủ đề nghiên cứu quan trọng trong khoa học xã hội
và càng quan trọng hơn trong các cộng đồng trực tuyến như các mạng xã hội: Facebook, Twitter, các trang thương mại điện tử như Amazon, Netflix, đóng một vai trò quan trọng cuộc sống thường này Michinari Momma và cộng sự [24] cho rằng ảnh hưởng xã hội gồm hai thành phần: thứ nhất là hành vi của một đối tượng độc lập, thứ hai là những hành vi đó ảnh hưởng, tác động đến đối tượng khác Thành phần thứ hai chính là xác định ảnh hưởng của các mối liên kết
Việc xác định những blogger có ảnh hưởng nhất mang lại nhiều lợi ích, như việc tìm ra những cơ hội kinh doanh mới, giả mạo những nghị sự chính trị, những cuộc thảo luận xã hội, những lợi tức xã hội và nhiều ứng dụng khác Mặt tiêu cực, những blogger có ảnh hưởng có thể làm dao động những ý kiến trong những chiến dịch chính trị, bầu cử và những tác động phản ứng lại chính phủ Xác định được những blogger có ảnh hưởng có thể giúp hiểu được những thay đổi, những bẫy giả mạo chính trị hay những điều tương tự, và có những kế hoạch thích hợp, kịp thời, có chuẩn bị trước để ứng phó Mặt khác, những blogger có ảnh hưởng cũng mang đến sự hỗ trợ và giải
Trang 14pháp, sự tin tưởng cho khách hàng thông qua những kinh nghiệm họ có, về mặt mua bán hay kêu gọi cộng đồng cùng chung tay thực hiện những phong trào mang tính tích cực
Ví dụ, về lĩnh vực mua sắm thì những blogger có ảnh hưởng sẽ ảnh hưởng đến một phần lớn những quyết định mua sắm của những người khác, nhận thức được điều này, các công ty có những chiến dịch maketing thông minh là dựa vào những blogger này Theo báo cáo của T Elkin, 2007 [8] thì có những công ty quảng cáo nắm bắt được điều này và thực hiện việc đặt những quảng cáo lên những trang blog của những blogger có ảnh hưởng Theo báo cáo được công bố trên Technorati2 vào 4/5/2007 số lượng blog tăng theo chu trình sáu tháng; Blogpulse3, một trang web theo dõi và xếp hạng các trang blog, vào ngày 12/12/2010 đã theo dõi hơn 150,000 blog và hơn 848,000 bài viết mỗi ngày Với sự lớn lên nhanh chóng về số lượng blog, blogger và bài viết thì cần phải có những phương pháp mới nhằm xác định được thứ hạng của những blog, blogger, bài viết đó
Mục đích của khóa luận là đề xuất một mô hình nhằm xác định được thứ hạng của những blogger, mà nền tảng là việc tính toán được điểm ảnh hưởng của những bài viết do họ viết Và việc tìm tập những blogger có ảnh hưởng nhất từ danh sách đã xếp hạng là dễ dàng
1.2 Bài toán xác định ảnh hưởng trên blog
Nghiên cứu ảnh hưởng của blogger là tìm ra những blogger có ảnh hưởng nhất trong cộng đồng, từ đó có thể đưa ra những thông tin thiết thực, đáng tin cậy cho con người trong thế giới ảo cũng như thực, phân tích thông tin, đưa ra các tiềm năng kinh doanh, hay những bất ổn trong đời sống xã hội, Dựa trên những mối quan hệ giữa các blogger, dựa trên các bài đăng của blog, những yếu tố liên quan đến các bài đăng đó, đưa ra đánh giá về độ ảnh hưởng của chúng Từ những dữ liệu sẵn có, phân tích chúng thành những yếu tố đơn giản hơn, xem xét ảnh hưởng của chúng đối với cộng đồng như thế nào, và đưa ra một đơn vị để đo ảnh hưởng của chúng, tổng hợp lại và dựa trên
dữ liệu tổng hợp được để đánh giá
Để đánh giá ảnh hưởng của một blogger dựa vào những bài viết mà họ viết Có nhiều yếu tố ảnh hưởng đến bài viết Một bài viết có thể được nhiều blogger tham chiếu đến thì chứng tỏ bài viết đó có ảnh hưởng vì nó được quan tâm, được nêu ra như
2 http://technorati.com/
3
http://www.blogpulse.com
Trang 15là một dẫn chứng của bài viết khác Số comment mà nó nhận được thể hiện sự quan tâm về nội dung, ý tưởng của bài viết và dẫn đến những cuộc thảo luận thể hiện qua comment Bài viết có tính thuyết phục, có lập luận chặt chẽ, có minh chứng cụ thể sẽ nhận được sự đồng ý, tán thành của người đọc Bên cạnh đó, cũng không thể không kể đến yếu tố thời gian có thể làm giảm đi sự ảnh hưởng của bài viết Tuy nhiên ở trong
mô hình của khóa luận không xét đến yếu tố thời gian
Trang 16Chương 2: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
2.1 Phân tích ảnh hưởng trong thế giới blog
Những công trình trước đây nghiên cứu về độ ảnh hưởng trong cộng đồng mạng chủ yếu là dựa vào những thống kê, tuy nhiên rất ít công trình thành công theo hướng này Một giới hạn của những phương pháp thống kê là không xác định trực tiếp được hành vi của người dùng, mà phải gián tiếp hoặc bằng kinh nghiệm, điều này sẽ không chính xác do có nhiều kênh gây nhiễu M Momma và cộng sự [24] đã đề xuất mô hình xác định ảnh hưởng giữa các blogger trong cộng đồng blog với độ tin cậy cao bằng việc xử lý những file log của web server Phương pháp này không chỉ xác định được blogger nào có ảnh hưởng mà còn xác định được họ ảnh hưởng ở những chủ đề nào, ảnh hưởng đến những blogger nào Theo nhóm tác giả, ảnh hưởng xã hội gồm hai
thành phần chính đó là suy nghĩ và hành động, suy nghĩ và hành động của người này
có thể bị ảnh hưởng bởi suy nghĩ và hành động của những người khác Dựa trên điều
này, ý tưởng chính của mô hình gồm hành động và nguyên nhân
Hành động chủ yếu trên blog đó là đọc và viết một bài viết Blogger đọc bài viết do blogger viết, tuy nhiên blogger thường không biết nội dung của trước khi chọn đọc, hoặc là một người rất hay đọc những bài do viết, không bỏ sót bất
cứ bài nào, điều này cho thấy hành động đọc không có tác dụng nhiều trong việc xác định ảnh hưởng giữa những blogger M Momma và cộng sự tập trung vào khai thác hành động viết Có nhiều yếu tố ảnh hưởng đến bài viết của như những kiến thức
từ những nguồn tài liệu khác, TV…, tuy nhiên nếu chỉ xét riêng trong cộng đồng blog thì chỉ tính toán độ ảnh hưởng qua việc đã đọc do viết trước khi viết , gọi
mối liên kết này là liên kết ngầm và nó được xác định như là một trọng số thông qua
một khung thời gian từ khi đọc tới khi viết Thời gian này càng lâu thì giá trị của
liên kết ngầm càng nhỏ
Có thể có hai giải thích cho mối liên kết ngầm giữa và đó là đọc , bị ảnh
hưởng và viết như là một kết quả, đây là quan hệ nguyên nhân giữa và Về giải thích thứ hai, có thể đọc trong khi viết hoặc trước khi viết , tuy nhiên về nội dung lại không bị ảnh hưởng, vì thế có thể coi và có liên quan với nhau
M Momma và cộng sự định nghĩa về ảnh hưởng như sau: bài viết (do blogger
viết) bị ảnh hưởng bởi bài viết (do blogger B viết) nếu được viết trong vòng giờ sau khi đọc và giống hơn tất cả những bài viết mà đã đọc trước khi viết trong vòng giờ
Trang 17Trong khoa học xã hội, có một vài nhân tố được xem là quyết định đến ảnh
hưởng nhưng danh tiếng là yếu tố quan trọng nhất Hệ quả, blogger đọc những bài viết của blogger hoàn toàn do danh tiếng của thuộc một chủ đề nào đó Top blogger được Technorati liệt kê đa phần mỗi blogger chỉ có danh tiếng về một lĩnh vực, chủ đề nhất định (chính trị, xã hội, thể thao ), bởi vì mỗi người thường chỉ quen với một lĩnh vực riêng mà họ tập trung vào Do đó, sự ảnh hưởng cần được đánh giá khác nhau theo mỗi chủ đề Cũng tương tự như thế, trong mỗi chủ đề riêng biệt, sự ảnh hưởng hoặc bị ảnh hưởng lẫn nhau giữa những blogger là khác nhau
2.2 Phương pháp dựa trên chỉ số và phụ thuộc thời gian
Leonidas Akritidis và cộng sự [3] đề xuất mô hình cũng dựa trên những đặc điểm
của một bài viết như độ dài, số lượng comment, liên kết đến inlinks, liên kết đi outlink… và đặc biệt có xét đến một khía cạnh khác ảnh hưởng đến bài viết đó là thời
gian, yếu tố cần thiết trong cộng đồng blog thay đổi một cách nhanh chóng Điểm của bài viết được tính như sau:
̅ ( ) Trong đó là độ dài của bài viết thứ của blogger ; là độ dài trung bình của bài viết; là nhãn thời gian của bài viết, là biến thời gian; là các hằng số được xác định trước
Dựa trên công thức (1), nhóm tác giả đã đưa ra một loại chỉ số để xác định ảnh
hưởng của blogger là chỉ số BP-index, chỉ số này dựa vào tuổi của bài viết: Trong một khoảng thời gian t, một blogger j có BP-index bằng P t j Nếu P t j của tập các bài viết của blogger( N j ) có điểm số j
p i
U, (t) >=P t j và phần còn lại N j -P t j có điểm số là j
p i
Trang 18Phương pháp này có một số ưu điểm như sau :
Các số liệu có thể được tính toán rất nhanh vì chúng không liên quan đến định nghĩa đệ quy phức tạp
Không sử dụng các thông số quá khó để thiết lập công thức
2.3 Thuật toán IP – Xác định người dùng có ảnh hưởng trên Twitter
Vấn đề của bài toán là xác định người dùng đang lan truyền thông tin trên mạng tốt nhất, không chỉ là những người theo dõi Công việc này có thể được tiến hành bằng cách đếm số retweet của người được theo dõi với người theo dõi họ, tuy nhiên chưa thực sự chính xác, vì vậy D.M Romero và cộng sự [10] đã đề xuất thuật toán IP, sử dụng phương pháp lặp, tính điểm số ảnh hưởng và bị ảnh hưởng đồng thời Với đồ thị trọng số có hướng , với các nút , các cung và trọng số của các cung là , ở đó trọng số của cung là , đại diện cho tỷ lệ ảnh hưởng của tác động lên
Thuật toán IP có đầu ra là hàm : , đại diện cho các nút có tác động ảnh hưởng trong mạng; và một hàm , đại diện cho những nút bị ảnh trong mạng đó
Đối với mỗi cung thuộc , xác định tỉ lệ chấp nhận:
∑ Giá trị này đại diện cho ảnh hưởng của người dùng đã được chấp nhận từ người dùng , ảnh hưởng lên tất cả các người dùng đã chấp nhận người dùng trong mạng
Bên cạnh đó, xác định một tỉ lệ từ chối :
∑ ( ) Giá trị đại diện cho ảnh hưởng của người dùng bị từ chối từ người dùng , ảnh hưởng lên tất cả các người dùng bị từ chối bởi người dùng trong mạng
Ưu điểm: Việc sử dụng đồ thị trong thuật toán IP có thể dùng để lọc nội dung và
xếp hạng các nội dung, chủ đề đang nhận được sự quan tâm của người dùng
Nhược điểm: Đồ thị dùng cho thuật toán này bắt nguồn từ các hoạt động của
người dùng, nó được xây dựng theo nhiều cách khác nhau, tuy nhiên trong một số
Trang 19trường hợp thì thông tin phản hồi trong các hình thức retweets hay like thì không rõ
ràng và không có sẵn nên khó xác định được đồ thị phù hợp
2.4 Họ chỉ số h-index
2.4.1 Chỉ số h-index
Chỉ số h-index được Hirsch, J E đưa ra vào năm 2005 [13] như là một chỉ số
khoa học của các nhà nghiên cứu Được định nghĩa như sau: là số lớn nhất mà tồn tại công bố khoa học của người đó có số lượng trích dẫn Gọi số lượng bài báo của một nhà nghiên cứu là đã công bố trong năm, số lượng bài tham chiếu đến là với mỗi bài báo , nếu xem tổng số lượng bài tham chiếu đến của tất cả các bài mà nhà nghiên cứu này có thì có công thức sau:
Trong đó, là tổng số lượng bài tham chiếu đến tất cả các bài báo, là hệ số
tỉ lệ Qua thực nghiệm, tác giả Hirsch, J E cho rằng nằm trong khoảng từ đến Một số điểm ưu điểm và nhược điểm của chỉ số h-index được tác giả chỉ ra như ở bảng sau:
Bảng 2.1: Ưu, nhược điểm của chỉ số h-index
Tổng số bài báo Đo được hiệu xuất Là độ đo không mấy quan
trọng
Tổng số bài tham
chiếu Đo tổng độ ảnh hưởng
Khó xác định, có thể một tác giả là đồng tác giả của rất nhiều bài báo mà những bài riêng biệt rất ít hoặc không có
Số tham chiếu của
mỗi bài báo
So sánh được số năm nghiên cứu khoa học của nhóm tác giả
là tự xác định, với những trường hợp phức tạp cần xác định chặt chẽ hơn
Số lượng tham chiếu
đến mỗi bài báo
trong bài được
tham chiếu nhiều
nhất, ví dụ
Khắc phục được nhược điểm của tất cả đặc điểm trên
Không phải là một số độc lập, khó để tìm và so sánh, hơn nữa cũng là tự xác định
Trang 202.4.2 Chỉ số g-index
H-index được xem là một chỉ số bền vững nếu xem xét tập bài báo không được
tham chiếu (hoặc tham chiếu ít), hoặc trong trường hợp tập những bài báo có lượng tham chiếu nhiều nhất Tuy nhiên, đây cũng có thể coi là một điểm yếu của h-index vì một cách trực quan thì những bài được tham chiếu nhiều thì phải tác động đến việc tính toán h-index hơn những bài còn lại Ví dụ, xét một bài báo trong top h bài có số lượng tham chiếu nhiều nhất, giả sử số lượng tham chiếu đến bài báo này tăng gấp đôi, gấp ba hay nhiều lần thì giá trị h-index vẫn không thay đổi Nếu xem h-index bền vững với những bài báo có lượng tham chiếu thấp thì những bài có số lượng tham chiếu nhiều phải tác động được giá trị của h-index
Leo Egghe, 2006 [4] đưa ra chỉ số g-index dựa trên định nghĩa về h-index: xét
tập bài báo được sắp xếp giảm dần theo số lượng tham chiếu nhận được, g là số duy nhất và lớn nhất mà top g bài báo nhận được ít nhất là tham chiếu Cũng có nghĩa
là top bài báo có ít hơn tham chiếu
Hệ quả:
Bảng 2.2 dưới đây là một ví dụ về h-index và g-index của chính tác giả Leo Egghe Bảng gồm thống kê top 20 bài báo có nhiều tham chiếu nhất và đã được sắp xếp giảm dần theo số lượng tham chiếu Trong đó, là số lượng tham chiếu; là thứ hạng; là tổng số lượng chiếu của top bài báo Dễ dàng thấy được rằng h-index =
13 và g-index = 19 (ở đây 381>361), ở vị trị thì
Trang 21Bảng 2.2: Top 20 bài báo của Leo Egghe giảm dần theo số tham chiếu [4]
Trang 22Buih Jin và cộng sự, 2007 [7] đưa ra chỉ số R-index như sau:
2.4.4 Chỉ số -index
Cũng thể hiện được ưu điểm giống g-index so với h-index, Peter Vinkler, 2009 [23] đã đưa ra chỉ số -index xem như là một chỉ số đánh giá các nhà khoa học -index cũng có điểm giống với R-index là xác định số lượng tham chiếu đến tập gồm
những bài báo có số lượng tham chiếu nhiều nhất của một tác giả, gọi là tập tốt nhất Nếu như số lượng thành phần tập tốt nhất của R-index được giới hạn chính bằng giá
trị h-index thì số lượng thành phần của tập này của -index là √ , trong đó là tổng
số bài báo ISI Web of Science (Essential Science Indicators) đưa ra một số ngưỡng
đối với những bài báo trong tập tốt nhất như và
Coi số lượng bài báo của tập tốt nhất là √ , các bài báo được sắp xếp giảm dần theo số lượng tham chiếu đến chúng, gọi là tổng số lượng tham chiếu đến
tập tốt nhất, -index được Peter Vinkler định nghĩa theo công thức sau:
2.4.5 Hệ thống hàm Lotkaian
Luật Lotka (đưa ra năm 1926) được lấy theo tên của nhà toán học, nhà hóa học vật lý và nhà thống kê học người người Mỹ Alfred James Lotka (1880-1949), là một dạng ứng dụng đặc biệt của luật Zipf Luật Lotka đưa ra rằng số lượng tác giả với (với ) số lượng công bố (bài báo) tỉ lệ với , trong đó ( phụ thuộc vào lĩnh vực như Vật lý, Hóa học, IT, …), Hay nói cách khác, nếu có hằng số thì:
Trang 23
Trong đó kí hiệu là số lượng tác giả của bài báo Một cách tổng quan hơn,
có thể kí hiệu cho số lượng nguồn (tác giả, tạp chí, từ loại…) với sản phẩm
(bài báo khoa học, bài báo tạp chí, sự xuất hiện từ…)
Áp dụng của luật Zipf trong lĩnh vực ngôn ngữ (từ loại và sự xuất hiện từ) trong
trường hợp tổng quát: nếu sắp xếp các nguồn giảm theo số lượng sản phẩm giảm dần thì thứ hạng của nguồn tỉ lệ với với Hay nếu có hằng số , thì
thể hiện số lượng sản phẩm của nguồn thứ tính bởi công thức sau:
Mặc dù các thông tin có thể khác nhau nhưng về logic toán học thì hai hàm
là giống nhau, đều thể hiện luật giảm (hàm nghịch biến)
Hệ thống hàm Lotkaian được Leo Egghe và Ronald Rousseau đưa ra năm 2006
[19] sử dụng luật Lotka như trình bày trên đây Theo đó, nguồn ở đây xác định là bài báo khoa học của tác giả nào đó và sản phẩm là số lượng tham chiếu mà nó nhận
được
Với , số lượng bài báo là thì chỉ số h-index được tính theo công thức sau:
Với , g-index, R-index và -index được tính toán theo công thức sau:
( )
( )
Trang 24
2.4.6 Một số quan hệ toán học của họ chỉ số h-index
Vào năm 2011, Leo Egghe [6] đưa ra một số quan hệ toán học của một số chỉ số thuộc họ chỉ số h-index và chứng minh được các quan hệ này Giả sử có hai tác giả với các chỉ số lần lượt tương ứng; kí hiệu là tổng số bài báo của hai tác giả, với ; các chỉ số có một số quan hệ sau:
Quan hệ giữa h-index và R-index
Quan hệ
Quan hệ giữa h-index và g-index
Quan hệ
2.5 Ý tưởng của khóa luận
Khóa luận đề xuất mô hình dựa trên mô hình của Nitin Agarwal và cộng sự [25]
bằng cách tính toán độ ảnh hưởng của blogger bằng độ đo h-index của blogger theo
các bài viết của blogger đó Trong [25], độ ảnh hưởng của một bài blog có giá trị thuộc đoạn Để áp dụng độ đo h-index, khóa luận sẽ sử dụng phương pháp đóng thùng
để chuyển miền giá trị thực sang miền giá trị nguyên [1…N]
Ngoài việc áp dụng chỉ số h-index, khóa luận còn thực hiện một số thực nghiệm
tính toán độ ảnh hưởng của các blogger dựa trên các chỉ số thuộc họ h-index đã trình bày ở trên
Trang 25Chương 3: MÔ HÌNH GIẢI QUYẾT BÀI TOÁN 3.1 Mô tả bài toán
3.1.1 Định nghĩa blogger có ảnh hưởng
Mỗi bài viết trên blog thường có những thông tin đi kèm với nó như tên blogger, thời gian bài viết đó được gửi, số lượng comment nhận được Không những thế, với
những nguồn tổng hợp thì bao gồm cả thông tin khác của bài viết như: outlinks – những liên kết tham chiếu đến những bài viết, website khác từ một bài viết; inlinks –
những bài viết, website khác tham chiếu đến bài viết đang xét
Đánh giá một blogger có ảnh hưởng tốt hay không thì cần phải đánh giá xem những bài viết của blogger đó có ảnh hưởng như thế nào tới những blogger khác trong cộng đồng Phải nhận thấy một điều rằng không phải blogger nào tích cực hoạt động viết nhiều bài, nhận được nhiều comment thì được xem là có ảnh hưởng, bởi vì có thể
đó chỉ là những bài không có tính thuyết phục, không thu hút, những comment thì có thể có nhiều spam… Nhóm tác giả [25] quan niệm rằng blogger có ảnh hưởng thì phải
có một hoặc nhiều bài viết có ảnh hưởng Thừa kế quan niệm này, khóa luận áp dụng
thêm đặc điểm của chỉ số h-index [13] đưa ra định nghĩa về blogger có ảnh hưởng như
sau:
Định nghĩa: Một blogger được xem như có ảnh hưởng nếu như là số nguyên
dương lớn nhất mà blogger này có đúng bài viết có độ ảnh hưởng ít nhất là
Giả sử có điểm ảnh hưởng của bài viết là , một blogger có thể có nhiều bài viết, một vài trong số đó có điểm ảnh hưởng tốt hơn những bài viết còn lại Như vậy với mỗi blogger sẽ có một tập điểm của những bài viết, từ tập đó sẽ có thể tìm được điểm ảnh hưởng của blogger đó Cụ thể hơn, nếu một blogger có bài viết
có điểm ảnh hưởng tương ứng với mỗi bài, công việc cần thiết là cần tìm số thỏa mãn định nghĩa trên từ tập điểm bài viết này
3.1.2 Đặc trưng của bài viết
Theo E Keller và J Berry, 2003 [2], một người được xem như là có ảnh hưởng nếu blogger ấy được cộng đồng thừa nhận, có thể tạo ra những hoạt động theo sau hoạt động của họ, có những ý kiến mới mẻ và có khả năng thuyết phục, hùng biện Dựa vào
lý luận này, nhóm tác giả [25] đã đưa ra bốn đặc trưng của một bài viết điển hình như sau:
Trang 26Bảng 3.1: Đặc trưng của một bài viết
Sự thừa nhận: Trong thế giới blog, một bài viết có ảnh hưởng khi nó được nhiều bài viết khác thừa nhận bằng cách tham chiếu đến Càng có nhiều bài viết tham chiếu đến thì càng chứng tỏ có ảnh hưởng nhiều hơn Và sự thừa
nhận của cộng đồng đối với một bài viết thể hiện qua inlinks tới
Nảy sinh hoạt động: Bài viết blog có thể làm nảy sinh một cách gián tiếp những hoạt động theo sau nó, đó chính là những comment mà nó nhận được Khi một bài viết nhận được nhiều comment thì chứng tỏ nó đã là khởi đầu cho một cuộc thảo luận mà những blogger khác quan tâm đến Việc loại bỏ những spam của những comment này có thể được giải quyết, theo P Kolari và cộng sự, 2006 [11], Y.-R Lin và cộng sự, 2007 [21]
Sự mới mẻ: Những ý kiến mới mẻ thì có ảnh hưởng tốt [2] Trong thế giới blog,
sự mới mẻ thể hiện ở những outlinks
Sự thuyết phục: Sự ảnh hưởng tốt cần có tính thuyết phục [2] Đây là đặc trưng khó xác định được bằng những thống kê, nhóm tác giả [25] chọn độ dài của bài viết như là một cách đánh giá, tuy nhiên có thể thấy đó chưa phải là cách tốt nhất, bởi sự thuyết phục của một bài viết còn phụ thuộc rất nhiều vào phong cách viết, cách vận dụng từ ngữ… thuộc về lĩnh vực ngôn ngữ