Phân tích dữ liệu mạng xã hội sử dụng kỹ thuật mapreduce

92 10 0
Phân tích dữ liệu mạng xã hội sử dụng kỹ thuật mapreduce

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - Vũ Văn Quyết PHÂN TÍCH DỮ LIỆU MẠNG XÃ HỘI SỬ DỤNG KỸ THUẬT MAPREDUCE Chuyên ngành: Công nghệ thông tin LUẬN VĂN THẠC SĨ KỸ THUẬT CHUYÊN NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS Huỳnh Quyết Thắng Hà Nội – Năm 2013 Lời cam đoan Tôi xin cam đoan cơng trình nghiên cứu thân Các số liệu có nguồn gốc rõ ràng tuân thủ nguyên tắc kết trình bày luận văn thu thập trình nghiên cứu trung thực chưa công bố trước Hà Nội, tháng 09 năm 2013 Tác giả Vũ Văn Quyết Lời cảm ơn ******** -Luận văn thực hướng dẫn PGS TS Huỳnh Quyết Thắng - Trường Đại học Bách Khoa Hà Nội Em xin bày tỏ lòng biết ơn sâu sắc tới Thầy hướng dẫn có ý kiến dẫn q báu q trình em làm luận văn Em xin cảm ơn thầy cô giáo, cán Viện công nghệ thông tin, cán thuộc phòng Đào tạo sau Đại học, Trường Đại học Bách Khoa Hà Nội tạo điều kiện cho em trình học tập nghiên cứu Trường Cuối xin bày tỏ lòng cảm ơn tới người thân gia đình, bạn bè động viên giúp đỡ để tơi hồn thành luận văn Hà Nội, tháng 09 năm 2013 Tác giả Vũ Văn Quyết Mục lục Lời cam đoan Lời cảm ơn .3 Danh mục từ viết tắt .7 Danh mục bảng Danh mục hình vẽ, đồ thị MỞ ĐẦU 11 Bối cảnh chung 11 Mục đích luận văn 12 Phương pháp nghiên cứu 12 Tóm tắt nội dung luận văn .13 Chương Mạng xã hội phương pháp biểu diễn phân tích mạng xã hội 15 1.1 Giới thiệu mạng xã hội 15 1.2 Các thuộc tính biểu diễn MXH 16 1.2.1 Đồ thị sử dụng đồ thị để mô tả quan hệ xã hội 16 1.2.2 Giải thuật sinh đồ thị .20 1.2.3 Các kết nối 21 Kích thước, đồ dày đặc cấp .22 Tính “có thể đến được” phần tử .23 Phản xạ bắc cầu 23 1.2.4 Khoảng cách 23 Khoảng cách geodesic 24 Đường kính mạng 26 1.2.5 Luồng, gắn kết khả ảnh hưởng 27 Luồng .27 Độ kết dính .27 1.3 Phân tích thuộc tính mạng .27 1.3.1 Độ trung tâm theo cấp 28 1.3.2 Độ trung tâm closeness 32 1.3.3 Độ trung tâm betweenness trung tâm ego betweenness 34 1.3.4 Độ trung tâm Eigenvector .37 1.3.5 Cộng đồng- Các nhóm mạng .39 1.3.6 Một số phép đo khác .41 Kết chương 42 Chương MapReduce ứng dụng phân tích MXH 44 2.1 MapReduce .44 2.2 Hadoop .47 2.3 Ứng dụng MapReduce vào tốn phân tích MXH .53 2.3.1 Độ trung tâm theo cấp .54 2.3.2 Độ trung tâm ego betweenness 54 2.3.3 Độ trung tâm betweenness 56 2.3.4 Độ trung tâm Eigenvector 58 Kết chương .60 Chương Cài đặt thử nghiệm đánh giá 62 3.1 Xây dựng công cụ thử nghiệm 62 3.2 Các kịch thử nghiệm 69 3.2.1 Cài đặt kiểm thử hiệu Hadoop máy đơn 70 3.2.2 Thử nghiệm mơ hình cụm máy tính .71 3.3 Đánh giá kết thảo luận 77 3.3.1 So sánh hiệu Neo4j v i Hadoop .77 3.3.2 Chất lượng máy ảnh hưởng đến thời gian tính tốn 79 3.3.3 Khả mở rộng giải thuât 80 3.3.4 Quan hệ phép phân tích MXH 82 3.3.5 Thời gian việc lựa chọn phép phân tích 83 Kết chương .83 KẾT LUẬN VÀ KIẾN NGHỊ 85 A Kết luận 85 Các kết đạt đề tài: 85 Những khó khăn hướng giải 86 B Kiến nghị 87 C Mở rộng đề tài 88 Danh mục tài liệu tham khảo 90 Tiếng việt 90 Tiếng anh 90 Danh mục từ viết tắt MXH Mạng xã hội MR Tác vụ MapReduce AFS Hệ thống tệp phân tán Amazon WWW Mạng internet BC Phép đo độ trung tâm betweenness EBC Phép đo độ trung tâm ego betweenness IDE Mơi trường phát triển tích hợp GFS Hệ thống tập phân tán Google HDFS Hệ thống tệp phân tán Hadoop RAM Bộ nhớ truy cập ngẫu nhiên DBMS Hệ quản trị sở liệu MPP-DBMS Hệ quản trị sở liệu có khả xử lý song song mức độ cao (Massively Parallel Processing) SNA Phân tích liệu mạng xã hội URL Địa tham chiếu tới tài nguyên mạng internet (Uniform Resource Locator) Danh mục bảng Bảng Khoảng cách Geodesic mạng 10 phần tử mẫu 26 Bảng Phép đo độ trung tâm theo cấp Freeman 30 Bảng Các thống kê mô tả từ phép đo độ trung tâm theo cấp Freeman 30 Bảng Giá trị Farness Closeness mạng mẫu 33 Bảng Phép đo BC mạng 10 phần tử mẫu 36 Bảng Giả mã sử dụng MapReduce để số lượt từ xuất văn 46 Bảng Giả mã thực phép đo độ trung tâm theo cấp đồ thị 54 Bảng Giả mã thực phép đo EBC 55 Bảng Giả mã đo BC 58 Bảng 10 Giả mã đo độ trung tâm eigenvector 60 Bảng 11 Các tập liệu sử dụng trình thực thử nghiệm 70 Bảng 12 Kết độ tương quan phép đo 82 Danh mục hình vẽ, đồ thị Hình Đồ thị có hướng biểu diễn quan hệ phần tử khảo sát 17 Hình Đồ thị kết nối 10 phần tử tổ chức an sinh xã hội thành phố Mỹ 25 Hình Một đồ thị thể phần tử trung tâm theo phép đo khác 28 Hình 4: Tổng quan thành phần điển hình cơng việc MapReduce Chú ý mapper reducer đặt máy 49 Hình 5: Ví dụ tiến trình WordCount 50 Hình 6: Giải thuật xử lý tính tốn độ EBC sử dụng MapReduce 51 Hình 7: Kiến trúc tổng quan thành phần đặc trung tác vụ MapReduce 52 Hình Mơi trường phát triển chương trình Netbean IDE 62 Hình Giao diện lệnh chương trình thời gian chạy 64 Hình 10 Một đoạn liệu đầu vào mẫu chương trình 65 Hình 11 Chương trình chạy máy thử nghiệm máy đơn, thơng tin thống kê q trình thực tác vụ map reduce 66 Hình 12 Kết thực nghiệm với đồ thị đầu vào mẫu 67 Hình 13 Kiểm tra kết thư mục đầu chương trình 67 Hình 14 Kết mẫu phần liệu đầu thu sau thực trích xuất từ HDFS 68 Hình 15 Kết phép tính độ EBC máy đơn 71 Hình 16a Đồ thị thể tương quan hiệu thời gian số lượng vi xử lý với phép đo độ trung tâm theo cấp với đồ thị 10 triệu đỉnh chạy máy đơn 73 Hình 16b Đồ thị thể tương quan hiệu thời gian số lượng vi xử lý với phép đo EBC với đồ thị 10 triệu đỉnh máy đơn 73 Hình 17 Thời gian tính tốn độ đo EBC độ trung tâm theo cấp thực thi máy đơn với 10 triệu đỉnh 74 Hình 18a Thời gian tính tốn độ trung tâm theo cấp cạnh sử dụng cụm máy tính 75 Hình 18b Thời gian tính tốn EBC sử dụng cụm máy tính 75 Hình 18c Thời gian tính tốn độ trung tâm eigenvector sử dụng cụm máy tính 76 Hình 18d Thời gian tính tốn BC sử dụng cụm máy tính 76 10 Hình 19 Thời gian tính toán độ trung tâm theo cấp cạnh máy đơn với Neo4j 78 78 Khi thực phép đo độ trung tâm ego Neo4j thu thập kết với số đỉnh dao động lên tới 300000 đỉnh cho thấy kết thể mực độ phụ thuộc thời gian tính tốn số lượng đỉnh sau: Hình 19 Thời gian tính toán độ trung tâm theo cấp cạnh máy đơn với Neo4j So sánh kết thực giải pháp cho thấy Neo4j có thời gian thực ngắn chạy máy đơn Với phép đo EBC cho thời gian tính tốn nhanh khoảng gấp đôi so với thực Hadoop Tuy nhiên, trường hợp Neo4j không gian heap sử dụng kích thước mạng tăng lên, Điều dẫn đến kết nhiều thời gian cần để giải phòng nhớ Đây tiến trình chậm ảnh hưởng đến tổng thời gian để thực mạng có kích thước đủ lớn Và không may mà máy giải phóng nhớ cache khoảng thời gian thích hợp lỗi vùng nhớ heap ném tiến trình bị dừng Bởi vậy, có giới hạn định kích thước mạng mà sử dụng với Neo4j máy đơn 79 Trái lại, tảng Hadoop lại không gặp phải vấn đề tương tự Đó thực tế Hadoop thực cơng việc tiến trình nhỏ gọi tác vụ Các tác vụ không chia sẻ nhớ heap Hadoop tránh vấn đề nhớ heap Tuy nhiên cần phải ý tảng Hadoop khơng phải có khả để mở rộng tuyến tính cách khơng có giới hạn máy đơn Với đầu vào có kích thước lớn thời gian sử dụng cho việc xếp đầu tác vụ map tăng lên chí chiếm phần lớn tồn thời gian công việc 3.3.2 Chất lượng máy ảnh hưởng đến thời gian tính tốn Thời gian tính tốn giảm phép đo trung tâm cấp phép đo EBC mạng 10 triệu đỉnh mà số vi xử lý máy đơn tăng lên Từ cho thấy cụm máy tính lớn xử lý cơng việc nhanh thời gian u cầu tính tốn thấp đáp ứng với cụm máy tính lớn với số lượng vi xử lý lớn Thêm vào hình 17 cho thấy việc tăng tốc độ tính tốn đạt tốt phép đo EBC với phép đo trung tâm theo cấp Nguyên nhân phép đo độ trung tâm theo cấp mạng 10 triệu phần tử cơng việc khơng tốn nhiều thời gian tính toán Bởi vậy, chuẩn bị hệ thống Hadoop cho tác vụ phần đáng kể thời gian tính tốn giai đoạn xử lý thực tế có ảnh hưởng Điều gián tiếp nói lên Hadoop thích hợp các cơng việc có kích thước lớn Hình 17, có điểm thể rõ ràng tính tốn độ trung tâm theo cấp hệ thống với 30 vi xử lý có thời gian khơng giảm nhiều Điều việc cài đặt tác vụ trình kiểm thử, dùng 30 tác vụ map 30 tác vụ reduce Hadoop cấu hình để xử lý tác vụ cho máy 30 tác vụ thực song song 30 vi xử lý Đây điều khơng thể cho cụm máy có kích thước nhỏ lý hệ thống với số vi xử lý lại cần nhiều thời gian để hồn thành cơng việc chúng 80 3.3.3 Khả mở rộng giải thuât Phép đo trung tâm theo cấp mô tả chương 1, giải thuật đơn giản để thực với độ phức tạp thời gian giải thuật 0(n) Trong môi trường Hadoop cần tác vụ map để xác định giá trị Bởi việc xếp thơng tin khơng ảnh hướng lớn đến thời gian tính tốn tổng nên quan hệ số lượng đỉnh n thời gian tính tốn tuyến tính Điều kiểm định kết có 18a Ta thấy rằng, đường đồ thị thẳng với đồ thị có số nút nhỏ triệu Đó giai đoạn khởi động chậm hệ thống Hadoop Việc khởi tạo tác vụ vài giây Bởi kết luận tảng Hadoop thích hợp để giải công việc phức tạp với lượng lớn liệu Phép đo EBC giải thuật đơn giản để giải quyết, độ phức tạp tính tốn phụ thuộc vào số đỉnh mạng theo đường tuyến tính Thêm vào số lượng cạnh m có ảnh hưởng đến thời gian tính tốn Và phần lý thuyết thời gian tính tốn giải thuật O(n+m) Một thuộc tính MXH mà liên quan đến số lượng mối quan hệ người không ảnh hưởng mở rộng kích thước mạng, đặc biệt với mạng lớn MXH Bởi xác giải định m tỉ lệ tuyến tính với n giải thuật có độ phức tạp thời gian O(n) Và kết kiểm thử từ hình 18 khẳng định rõ luận điểm Một vấn đề xảy ngữ cảnh các tảng MapReduce phân bố khơng cấp độ Với cạnh số lượng hàng xóm định thời gian cần để tính tốn EBC Một ma trận có kích thước (nn+1)×(nn+1) phải tạo xử lý cho cạnh Từ phép nhân ma trận kích thước n x n có độ phức tạp thời gian biên O(n2) [25], phân tán mạnh độ trung tâm theo cấp gây nên phân tán mạnh nhiều tải tác vụ MapReduce Những tác vụ yêu cầu nhiều thời gian để hoàn thành làm chậm giải thuật xử lý 81 Với phân phối it chênh lệch cấp đỉnh thời gian tính tốn trở nên tuyến tính Hình 18b thể điều với mạng mà có cấp đỉnh giới hạn 25 Trong trường hợp độ trung tâm eigenvector, giải thuật cho việc xử lý so sánh với giải thuật khác Tuy nhiên nhắc đến trước đó, thời gian cần để hồn thành việc tính tốn O(n+m) Kết luận trình bày cho cho phép đo EBC áp dụng với trường hợp Bởi độ phức tạp thời gian xấp xỉ O(n) Kết luận thể rõ chúng xem xét kết thử nghiệm hình 18c Hình 18d thể khác biệt hoàn toàn với hình khác nhóm hình 18 Việc xuất pháp từ tính chất giải thuật đo BC Giải thuật Brandes mô tả chương có thời gian tính tốn O(nm) Có thể viết lại độ phức tạp giải thuật O(n2) Kết luận phù hợp với kết thực nghiệm thực Tóm lại, giải thuật bao gồm độ trung tâm theo cấp, EBC mở rộng kích thước với độ phức tạp thời gian tuyến tính Khi tăng kích thước mạng việc không yêu cầu nhiều thời gian để thực thi phép đo toàn mạng Lý điều xuất phát từ thực tế giải thuật có độ phức tạp tính tốn thấp Trong giải thuật tính độ trung tâm eigenvector giải thuật lặp Về điều có nghĩa vài tác vụ MapReduce phải thực thi theo thứ tự để có kết cuối Cụ thể hơn, tác vụ cho phép lặp gọi để thực cần đến đầu từ tác vụ trước đầu vào Trong tảng Hadoop, điều liên quan đến việc lưu trữ kết đầu tác vụ hệ thống file phân tán việc đọc chuyển kết cho tác vụ khác Thủ tục đọc ghi tốn thời gian đáng kể mà cần thực thi không gian lưu trữ ổ cứng Đây nhược điểm tảng Hadoop 82 3.3.4 Quan hệ phép phân tích MXH Các kết kiểm thử mối tương quan thực cho cặp cạnh theo phân tích MXH cho thấy có tương quan phép đo Một vài kết đáng ý xem xét tương quan bảng 16 Đáng ý tương quan cao độ phép đo trung tâm theo cấp không trọng số phép đo độ trung tâm eigenvector không trọng số Bởi vậy, nói phép đo cung cấp thông tin liên quan đến phần tử mạng Các tương quan mạnh khác độ trung tâm cấp vào trung tâm cấp với độ trung tâm cấp vào cấp có trọng số Thêm vào đó, độ trung tâm cấp có trọng số có tương quan cao với phép đo khác ngoại trừ phép đo EBC EBC phép đo mà có liên quan đến phép đo khác Độ tương quan cao EBC 0,5696 xét tương quan với phép đo độ trung tâm eigenvector không trọng số Bảng 12 Kết độ tương quan phép đo Trong bảng w đồ thị có trọng số EC phép đo độ trung tâm eigenvector EBC phép đo độ trung tâm ego 83 DC phép đo độ trung tâm theo cấp wo trọng số cạnh từ đỉnh xét wi trọng số cạnh vào từ đỉnh xét 3.3.5 Thời gian việc lựa chọn phép phân tích Hầu hết trình thực nghiệm, thời gian để thực giải thuật thực khoảng 1h Ngoại lệ đáng ý tính tốn độ trung tâm eigenvector với trường hợp có trọng số khơng có trọng số cần đến 24h để hồn thành việc tính tốn (Cho đồ thị 100 triệu đỉnh) Vấn đề tránh cách sử dụng kết thảo luận phần trước Đó với tương quan cao phép đo độ trung tâm cấp khơng có trọng số độ trung tâm eigenvector (0,9995) Điều cho thấy phép đo độ trung tâm eigenvector không cung cấp thêm nhiều thông tin phần tử mạng so với phép đo trung tâm theo cấp phần tử Trong thời gian tính tốn phép đo độ trung tâm theo cấp lại thấp nhiều Vì giải thuật phép đo ưư tiên để thực thi sử dụng Một tương quan mạnh phép đo độ trung tâm eigenvector có trọng số độ trung tâm theo cấp vào Vì phép đo độ trung tâm theo cấp vào phần tử xem mô tả tốt độ trung tâm eigenvector có trọng số Như phép đo trung tâm eigenvector có trọng số khơng trọng số loại bỏ Khi tổng thời gian tính tốn giảm từ ngày cịn 6715s tức khoảng 1,87h mà mô tả độ trung tâm phần tử có độ xác cao Kết chương Chương trình bày kết chương trình thực nghiệm đo độ trung tâm phần tử theo giải thuật mô tả chương trước Đồng thời xây dựng kịch 84 thử nghiệm để từ đánh giá hiệu Hadoop Các kịch thực nghiệm đến thực đa dạng mẫu liệu cấu hình khác bao gồm chế độ chạy máy đơn kết hợp với việc tham khảo sử dụng kết thực nghiệm chạy máy đơn nhiều vi xử lý chế độ chạy cụm máy tính đầy đủ Sau tiến hành thử nghiệm, số kết luận đánh giá kết thực nghiệm bao gồm đánh giá phép đo, khả mở rộng, thời gian xử lý, nguyên nhân mức độ thích hợp Hadoop thực thi giải thuật xem xét mối tương quan phép đo Đồng thời xem xét độ liên quan phép đo, tương đồng số phép đo Cuối chương đánh giá kết luận quan trọng hiệu Hadoop trường hợp thích hợp để sử dụng Hadoop 85 KẾT LUẬN VÀ KIẾN NGHỊ A Kết luận Luận văn tác giả với đề tài: “Phân tích liệu MXH sử dụng MapReduce” bám sát theo mục tiêu ban đầu tìm hiểu đề tài Các kết đạt đề tài: Nghiên cứu số lý thuyết liên quan đến mạng xã hội từ phương pháp biểu diễn liệu mạng xã hội đến thuộc tính mạng tập trung vào phép đo độ trung tâm phần tử mạng Tiếp theo luận văn xem xét đến mơ hình lập trình MapReduce, tảng Hadoop Dựa mơ hình tác giả phân tích đưa giải thuật để thực phép đo độ trung tâm phần tử mạng Cuối cùng, nghiên cứu tập trung kiểm tra khả thực thi, hiệu Hadoop tập liệu phương án xử lý khác để xác định độ trung tâm phần tử Các kết cho thấy máy tính Hadoop cho thấy khả xử lý tập liệu lớn tốt việc tăng thời gian tính tốn số giải thuật theo mức tuyến tính Thêm vào bổ xung nhiều vi xử lý hình thành nên cụm máy tính để triển khai tảng Hadoop phục vụ cho việc kiểm thử, kết với tác vụ đủ lớn, Hadoop cố gắng để sử dụng nhiều khả máy tính trọng cụm đạt kết tốc độ tính tốn tăng lên tỉ lệ thuận với mức độ tăng vi xử lý Tham khảo kết thực nghiệm cụm cụm máy tính đầy đủ gồm 11 máy tính sử dụng để thực số giải thuật phân tích Nó cho thấy điều, giải thuật mà độ phức tạp tăng lên tuyến tính mơi trường 86 khơng phân tán xử lý Hadoop với tăng lên kích thước liệu hầu hết trường hợp không giới hạn Tuy nhiên tác vụ liên quan nhiều với việc lặp với lượng lớn thông tin cần trao đổi máy tính cụm để xử lý không nhanh giải thuật mà tránh yếu tố Một cơng cụ hồn chỉnh cho việc phân tích MXH tác giả phát triển để thực phép đo MXH Thông qua công cụ này, số phép đo cài đặt để thực đo độ trung tâm phần tử MXH Có thể tìm thấy nhiều phần tử thú vị có độ quan trọng cao, có ảnh hưởng lớn mạng thông qua phép đo chương Chương trình áp dụng để phân tích nhiều nguồn liệu đa dạng khác mở rộng để phục vụ cho việc tìm kiếm thơng tin tập liệu MXH từ thông tin thành viên diễn đàn để đánh giá độ tin cậy hay tìm kiếm thành viên có độ ảnh hưởng cao cộng đồng Thông qua việc thử nghiệm đánh giá mức độ tương quan phép đo sử dụng phân tích MXH, ta tìm tương quan mạnh phép đo độ trung tâm theo cấp đồ thị không trọng số với độ trung tâm eigenvector không trọng số, độ tương quan độ trung tâm cấp vào độ trung tâm eigenvector có trọng số Từ đề xuất bỏ phép phân tích độ trung tâm eigenvector thực việc phân tích MXH mà không làm thông tin phần tử Những khó khăn hướng giải Những khó khăn gặp phải trình thực đề tài:  Lý thuyết nghiên cứu phân tích MXH mẻ, phương pháp xác định giá trị thuộc tính, phép đo phần tử mạng cịn nhu cầu thông tin đa dạng phần tử lại yêu cầu cấp thiết thực tế 87  Các tập liệu lớn MXH khiến cho việc phân tích liệu khó khăn với thời gian kiểm thử dài  Việc dựng kiểm thử mơ hình cụm máy tính lớn gây tốn thời gian chi phí  Việc giải lỗi gặp phải q trình chạy hệ thống khó khăn thân Hadoop tảng phức tạp đặc biệt việc chạy tác vụ song song gây nhiều khó khăn việc xác định lỗi xảy trình phát triển phần mềm phân tích  Thời gian thực việc phân tích lớn cá biệt có tập giải thuật mà thời gian chờ đợi hoàn thành việc phân tích tập liệu tới vài ngày Hướng giải quyết:  Tham khảo đa dạng nguồn để tìm lý thuyết phép đo thừa nhận rộng rãi có giá trị thực tế việc phân tích liệu  Thuê tảng điện toán đám mây cho phép tùy chỉnh thay đổi tài nguyên phân cứng nhanh chóng dễ dàng cho phép thực kiểm nghiệm theo trường hợp kiểm thử đa dạng  Ghi thông tin log đầy đủ bước liệu để có nhiều thơng tin xác định lỗi giải thuật B Kiến nghị Trong q trình nghiên cứu hồn thành luận văn, tác giả nhận thấy để áp dụng giải thuật phân tích liệu MXH mơ hình MapReduce cần ý đến số đặc điểm sau: 88 - Cần tối ưu giải thuật xử lý tác vụ Map tác vụ Reduce để tăng khả xử lý song song tác vụ tránh việc phải trao đổi liệu tác vụ nhiều làm giảm hiệu xử lý nhiều - Hadoop có thời gian khởi động bắt đầu việc xử lý chậm việc khởi động thiết lập cấu hình nhiều thời gian Hadoop thực thích hợp với tác vụ có lượng liệu phân tích lớn - Cần xem xét độ liên quan thơng số cần phân tích, phần đánh giá kết luận văn nêu, số phép đo cho kết độ tương quan cao phép phân tích độ trung tâm khác nhau, ta cần thực phép đo mà cho thời gian tính tốn tối ưu thơng tin nhận phép đo tương đương C Mở rộng đề tài Trong nghiên cứu đề cập thực so sánh Hadoop với hệ quản trị sở liệu đồ thị Neo4j, phạm vi đề tài này, Hadoop lựa chọn để thực việc xây dựng chương trình kiểm thử nhiên nghiên cứu sâu Neo4j chắn cung cấp cho thấy kết thú vị Đặc biệt Neo4j nên kiểm thử với mơ hình cụm máy tính Một hệ thống khác chưa kiểm tra đề tài Spark, tảng cho việc tính tốn song song mà nhằm đến tác vụ lặp theo cách hiệu Hadoop Kiểm thử tảng hướng nghiên cứu tốt cho kết thú vị Một cách khả thi khác để tăng tốc việc tính tốn phép đo SNA cần ý nghiêm cứu xử lý phân mục liệu đầu vào theo cách thông minh Việc phân loại nhằm đảm bảo đỉnh mà có quan hệ gần đặt tác vụ map Việc giảm số lượng liệu cần phải gửi mày tính cải tiền hiểu tác vụ thu thập kết Hướng nghiên cứu tìm thấy mục [9] 89 Nghiên cứu giới hạn việc kiểm tra phép đo độ trung tâm Các kiểm thử mở rộng giải thuật phép đo khác PageRank [19], LineRank [21], Độ trung tâm Eccentricity [12] Shapley Value [17] định khả mở rộng giải thuật cung cấp thông tin cho việc phân tích mạng thơng tin phần tử mạng Đồng thời từ việc nghiên cứu thêm phép đo chắn cho thấy tính đa dạng ứng dụng thực tế phân tích MXH nhằm đáp ứng nhu cầu thông tin không ngừng tăng lên người 90 Danh mục tài liệu tham khảo Tiếng việt [1] Lê Huy Thập (2010), Cơ sở lý thuyết song song, Nxb thông tin truyền thông, Hà Nội Tiếng anh [2] Albert-L´aszlo´ Barab´asi and R´eka Albert, Emergence of Scaling in Random Networks Science, 286:509-512, 1999 [3] Apache Hadoop, retrieved 15 November 2011, http://Hadoop.apache.org/ [4] Duncan J Watts, Steven H Strogatz, Collective dynamics of „small-world‟ networks Nature, 393:440-442, 1998 [5] David Eppstein and Joseph Wang, A Steady State Model for Graph Power Laws International Workshop on Web Dynamics, 2002 [6] Grzegorz Malewicz, Matthew H Austern, Aart J C Bik, James C Dehnert, Ilan Horn, Naty Leiser, and Grzegorz Czajkowski, Pregel: A System for Large-Scale Graph Processing PODC ‟09 Proceedings of the 28th ACM symposium on Principles of dis- tributed computing , 2009 [7] Jeffrey Dean and Sanjay Ghemawat, MapReduce: Simplified Data Processing on Large Clusters Proceedings of OSDI ’04: 6th Symposium on Operating System Design and Implemention, 2004 [8] Jimmy Lin, Data-Intensive Information Processing Applications re- trieved November 2011, http://www.umiacs.umd.edu/~jimmylin/cloud-2010- Spring/syllabus.html 91 [9] Jimmy Lin and Michael Schatz, Design Patterns for Efficient Graph Algorithms in MapReduce MLG ‟10 Proceedings of the Eighth Workshop on Mining and Learning with Graphs , 2010 [10] Jurij Leskovec , Deepayan Chakrabarti , Jon Kleinberg , Christos Faloutsos, Realistic, mathematically tractable graph generation and evolution, using kronecker multiplica- tion in PKDD, 133-145, 2005 [11] J Scott, Social Network Analysis Sage, 1988 [12] Katarzyna Musia~l, Przemys~law Kazienko and Piotr Bro´dka, User Position Measures in Social Networks SNA-KDD ‟09 Proceedings of the 3rd Workshop on Social Network Mining and Analysis 2009 [13] Neo4j: NOSQL For the Enterprise, retrieved 15 November 2011, http://neo4j.org/ [14] L C Freeman, The Development of Social Network Analysis: A Study in the Sociology of Science Booksurge Llc, 2004 [15] Martin Everett and Stephen P Borgatti, Ego network betweenness Social Networks, 27:31-38, 2005 [16] Matei Zaharia, Mosharaf Chowdhury, Michael J Franklin, Scott Shenker, Ion Stoica, Spark: Cluster Computing with Working Sets HotCloud‟10 Proceedings of the 2nd USENIX conference on Hot topics in cloud computing, 2010 [17] Ramasuri Narayanam, Y Narahari, A Shapley Value Based Approach to Discover Influential Nodes in Social Networks Nature Physics 8:130-147, 2011 [18] Sangwon Seo, Edward J Yoon, HAMA: An Efficient Matrix Computation with the MapReduce Framework 2010 IEEE Second International Conference on Cloud Com- puting Technology and Science (CloudCom), 2010 92 [19] Sergey Brin, Rajeev Motwani, Lawrence Page and Terry Winograd, What can you with a Web in your Pocket? Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 21:37-47 1998 [20] Santo Fortunato and Claudio Castellano, Community Structure in Graphs ArXiv eprints, 0712.2716, 2007 [21] U Kang, Spiros Papadimitriou, Jimeng Sun, Hanghang Tong, Centralities in Large Networks: Algorithms and Observations SIAM / Omnipress 119-130, 2011 [22] Ulrik Brandes, A Faster Algorithm for Betweenness Centrality Journal of Mathematical Sociology, 25(2):163-177, 2001 [23] U Kang, Charalampos E Tsourakakis and Christos Faloutsos, PEGASUS: A PetaScale Graph Mining System - Implementation and Observations Proceedings of the 2009 Ninth IEEE International Conference on Data Mining (ICDM 2009), 229-238, 2009 [24] Vincent D Blondel, Jean-Loup Guillaume, Renaud Lambiotte and Etienne Lefebvre, Fast unfolding of communities in large networks Journal of Statistical Mechanics, P10008, 2008.[30] Hadoop wiki, WordCount Example retrieved 14 November 2011, http://wiki apache.org/hadoop/WordCount [25] Wikipidia article, Matrix Multiplication retrieved November 2011, http://en wikipedia.org/wiki/Matrix_multiplication [26] Jonathan Magnusson, Social Network Analysis Utilizing Big Data Technology, 2012 ... Chương Mạng xã hội phương pháp biểu diễn phân tích mạng xã hội Chương luận văn liên quan đến lý thuyết sử dụng để tiếp cận phân tích MXH Chương bắt đầu việc giới thiệu tổng quan phân tích MXH... .13 Chương Mạng xã hội phương pháp biểu diễn phân tích mạng xã hội 15 1.1 Giới thiệu mạng xã hội 15 1.2 Các thuộc tính biểu diễn MXH 16 1.2.1 Đồ thị sử dụng đồ thị... thuộc tính mạng, phép đo sử dụng MXH xem xét phần lý thuyết liên quan đến nhóm, cộng đồng 1.1 Giới thiệu mạng xã hội Một mạng xã hội cấu trúc xã hội tạo thành từ nhiều phần tử xã hội cá nhân

Ngày đăng: 08/12/2021, 23:19

Mục lục

    Danh mục từ viết tắt

    Danh mục các bảng

    Danh mục các hình vẽ, đồ thị

    KẾT LUẬN VÀ KIẾN NGHỊ

    Danh mục tài liệu tham khảo

Tài liệu cùng người dùng

Tài liệu liên quan