Trong phạm vi của ứng dụng MXH dành cho Cộng đồng hiếm muộn xin sử dụng khái niệm MXH đơn giản như sau: Mạng xã hội cộng đồng hiếm muộn là dịch vụ nối kết các thành viên cùng gặp các vẫn
Trang 1-
CHU QUANG PHỔ
NGHIÊN CỨU ỨNG DỤNG CỦA LÝ THUYẾT ĐỒ THỊ
TRONG VIỆC PHÂN TÍCH MẠNG XÃ HỘI
Chuyên ngành: CÔNG NGHỆ THÔNG TIN
LUẬN VĂN THẠC SỸ KỸ THUẬT CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS: HUỲNH THỊ THANH BÌNH
Hà nội 2016
Trang 2LỜI CAM ĐOAN
Luận văn thạc sỹ này do tôi nghiên cứu và thực hiện dưới sự hướng dẫn của
cô giáo PGS.TS HUỲNH THỊ THANH B ÌNH Với mục đích học tập, nghiên
cứu để nâng cao kiến thức và trình độ chuyên môn nên tôi đã làm luận văn này một cách nghiêm túc và hoàn toàn trung thực
Để hoàn thành bản luận văn này, ngoài các tài liệu tham khảo đã liệt kê, tôi cam đoan không sao chép toàn văn các công trình ho ặc thiết kế tốt nghiệp của người khác
Hà Nội, tháng 4 năm 2016
Học viên
Chu Quang Phổ
Trang 3LỜI CẢM ƠN
Những kiến thức căn bản trong luận văn này là kết quả của ba năm 2015) tôi có may mắn được các thầy cô giáo trong Trường Đại học Bách Khoa Hà Nội, Viện Công nghệ Thông tin và Truyền Thông và một số Viện khác trực tiếp giảng dạy, đào tạo và dìu dắt
(2013-Tôi xin bày tỏ lời cảm ơn chân thành tới các thầy cô giáo trong Viện Công nghệ thông tin và Truyền thông, Phòng đào t ạo sau đại học Đại học Bách Khoa Hà Nội đã tạo điều kiện thuận lợi cho tôi trong thời gian học tập tại trường
Tôi xin bày tỏ lòng biết ơn chân thành, lời cảm ơn sâu s ắc nhất đối với cô
giáo PGS.TS Huỳnh Thị Thanh Bình đã trực tiếp hướng dẫn, định hướng cho tôi
giải quyết các vấn đề trong luận văn
Tôi cũng xin cảm ơn các bạn, các anh chị em lớp CHBK2013B1 đã đồng hành và cùng giúp đỡ tôi trong quá trình học tập và làm luận văn
Luận văn cũng xin được là lời chia vui với người thân, đồng nghiệp, bạn bè
và các bạn đồng môn hai lớp cao học CHBK2013B1 và CHBK2013B2
Trang 4MỤC LỤC
DANH MỤC CÁC KÝ HIỆU, THUẬT NGỮ VIẾT TẮT 5
DANH MỤC HÌNH VẼ, BẢNG BIỂU 6
LỜI NÓI ĐẦU 8
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 10
1 Giới thiệu về Mạng xã hội 10
1.1 Khái niệm Mạng xã hội 10
1.2 Sự phát triển của Mạng xã hội 10
1.3 Các mạng xã hội của Việt Nam hiện nay 11
2 Cơ sở khoa học và thực tiễn của đề tài 14
2.1 Cơ sở khoa học 14
2.2 Cơ sở thực tiễn 15
3 Mục đích của đề tài (các kết quả cần đạt được) 17
4 Bố cục Luận văn 17
CHƯƠNG 2: ỨNG DỤNG CỦA LÝ THUYẾT ĐỒ THỊ TRONG PHÂN TÍCH MẠNG XÃ HỘI 18
2.1 Lý thuyết đồ thị 18
2.1.1 Định nghĩa đồ thị 18
2.1.2 Biểu diễn mạng xã hội theo đồ thị 21
2.2 Cộng đồng trong mạng xã hội 22
2.2.1 Các khái niệm chung 22
2.2.2 Ý nghĩa của việc phát hiện cộng 23
2.3 Các kỹ thuật gom nhóm – phát hiện cộng đồng 26
2.3.1 Xác định trung tâm trong mạng (Centrality) 26
2.3.2 Thuật toán CONGA 39
2.3.3 Thuật toán K-Mean 45
Chương 3: BÀI TOÁN CỘNG ĐỒNG HIẾM MUỘN 47
3.1 Phát biểu bài toán 47
3.1.1 Thực trạng về tình hình hiếm muộn ở Việt Nam hiện nay 47
Trang 53.1.2 Những vấn đề của các c ặp hiếm muộn 48
3.2 Yêu c ầu đối với mạng xã hội cộng đồng hiếm muộn 51
3.2.1 Forum Cộng đồng hiếm muộn 51
3.2.2 Giới thiệu kết bạn 52
3.2.3 Phân nhóm cộng đồng 53
3.3 Phân tích các yêu cầu 53
3.3.1 Forum cộng đồng hiếm muộn 53
3.3.2 Giới thiệu kết bạn 54
3.3.3 Phân nhóm cộng đồng 55
Chương 4: THỰC NGHIỆM VÀ KẾT QUẢ ĐẠT ĐƯỢC 56
4.1 Mô hình hệ thống 56
4.2 Giới thiệu về PHPFOX 57
4.2.1 Giới thiệu chung 57
4.2.2 Cấu trúc thư mục trong PhpFox 59
4.3 Xây dựng Forum 60
4.4 Xây dựng chức năng kết bạn 62
4.4.1 Thiết kế cơ sở dữ liệu 62
4.4.2 Các bước xây dựng ứng dụng tổng hợp kết bạn 63
4.4.3 Xây dựng chức năng giới thiệu kết bạn 64
4.5 Kết quả đạt được 64
4.5.1 Chức năng Forum 64
4.5.2 Chức năng tính kết bạn 67
Chương 5: KẾT LUẬN 68
TÀI LIỆU THAM KHẢO 70
Trang 6DANH MỤC CÁC KÝ HIỆU, THUẬT NGỮ VIẾT TẮT
Trang 7DANH MỤC HÌNH VẼ, BẢNG BIỂU
Danh mục hình vẽ
Hình 1 Thống kê số lượng truy c ập vào ZingMe 12
Hình 2 Đơn đồ thị vô hướng 19
Hình 3 Đa đồ thị vô hướng 19
Hình 4 Giả đồ thị vô hướng 20
Hình 5 Đơn đồ thị vô hướng 20
Hình 6 Đa đồ thị có hướng 21
Hình 7 Biểu diễn mạng xã hội theo đồ thị 22
Hình 8 Ví dụ về một đồ thị với 3 cộng đồng 23
Hình 9 Đồ thị vô hướng 7 đỉnh 28
Hình 10 Mối quan hệ giữa 10 thành viên 30
Hình 11 Đồ thị 6 đỉnh 31
Hình 12 Đồ thị gồm 6 đỉnh 35
Hình 13 Đồ thị 7 đỉnh 38
Hình 14 Ví dụ về phát hiện cộng đồng theo thuật toán Newman-Girvan 40
Hình 15 Ví dụ về phép phân chia một đỉnh trong đồ thị 43
Hình 16 Thuật toán K-Means 45
Hình 17 Mô hình hệ thống MXH Cộ ng đồng hiếm muộn 56
Hình 18 Cấu trúc thư mục PhpFox 59
Hình 19 Trang quản trị Modules PhpFox 61
Hình 20 Thêm mới chuyên mục diễn đàn 62
Hình 21 Sửa chuyên mục diễn đàn 62
Hình 22 Diễn đàn 65
Hình 23 Trang giới thiệu kết bạn 67
Trang 8Danh mục bảng biểu
Bảng 1 Độ đo Degree Centrality của các đỉnh sau khi tính toán 28 Bảng 2 Độ đo trung tâm dựa vào trung gian 32 Bảng 3 Phân cụm theo độ đo trung gian 34
Trang 9LỜI NÓI ĐẦU
Theo thống kế có được tại hội thảo quốc tế về “Cập nhật về hộ trợ sinh sản” diễn ra tại Hà Nội cuối năm 2013 với sự góp mặt của các bác sĩ ngành Sản khoa tới
từ nhiều nơi trên thế giới đã thống kê tỷ lệ vô sinh tại Châu Âu và Châu Mỹ trung bình từ 13-25% các cặp vợ chồng Tỷ lệ này ở Việt Nam là khoảng gần 8% và tính
ra có khoảng 1 triệu người cần tới các biện pháp hỗ trợ sinh sản
Cũng là 1 trong 1 triệu trường hợp cần tới các biện pháp hỗ trợ sinh sản nên tôi hiểu được khó khan các trường hợp người cần tới sự giúp đợ của các biện pháp
hỗ trợ sinh sản Là một nước mang nặng tư tưởng A Đông như Việt Nam thì điều khó khan nhất mà các cặp hiếm muộn gặp phải đó là tư tưởng và sức ép từ phía gia đình Ngoài các vấn đề lien quan tới tài chính thì sức ép từ gia đình là điều mà không phải cặp hiếm muộn nào cũng có thể vượt qua Các cặp hiếm muộn thiếu một nơi chia sẻ các thong tin về bệnh hiếm muốn cũng như tìm được các trường hợp giống mình để cùng giải quyết vấn đề
Ngày nay với sự phát triển của CNTT nói chung và việc xây dựng các ứng dụng CNTT trong việc phát triển MXH nói riêng đã đạt được thành quả to lớn, với việc ra đời của các MXH như Twitter, Google+, Linked, Myspace và đ ặc biệt là FaceBook Các trang MXH này đều hướng tới các nhóm đối tượng người dung khác nhau, như Twitter: Chia sẽ ảnh, link, tin nhắn ngắn…Google+ hướng tới các đối tượng thành viên từ 13 tuổi trở lên, Linked hướng tới các thành viên là những người từ 18 tuổi trở lên và có nhu cầu chia sẻ thong tin về việc làm, kinh doanh, công ty…FaceBook hướng tới mọi đối tượng thành viên giúp họ chia sẻ ảnh, video, blog, game, link, tin nhắn,…
Như vậy mặc dù các trang MXH đều có các đặc điểm chung là giúp các thành viên chia sẻ các thong tin cá nhân, hình ảnh, video, tin nhắn… nhưng mỗi trang MXH cũng hướng tới muc tiêu và các đối tượng thành viên khác nhau
Trang 10Vì vậy tôi muốn xây dựng một trang MXH riêng cho các cặp hiếm muộn, trên đó có 2 chức năng chính: Forum chia sẻ các kinh nghiệm của các cặp hiếm muộn dành cho tất cả mọi người dù là thành viên c ủa MXH hay không là thành viên, chức năng thứ 2 là xây dựng MXH cho các thành viên có thể kết bạn và chia
sẻ nhiều hơn các thong tin với nhau
Trang 11Chương 1: Giới thiệu tổng quan
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN
1 Giới thiệu về Mạng xã hội
1.1 Khái niệm Mạng xã hội
Mạng xã hội, hay gọi là mạng xã hội ảo, (social network) là một trang Web
mà ở đó một người có thể kết nối với nhiều người thô ng quan việc chia sẻ các sở thích cá nhân, vị trí địa lý Các thành viên trong mạng xã hội có nhiều cách khác nhau để tìm kiếm bạn bè, đối tác, những người có chung điểm quan tâm nào đó… như: dựa vào trường lớp đã từng học, cùng làm việc trong công ty, dựa theo các thông tin cá nhân email, hoặc dựa theo sở thích cá nhân (phim ảnh, thời trang, sách báo, thong tin lien quan tới các vấn đề hiếm muộn)…
Mạng xã hội có những tính năng chung: chat, email, chia sẻ file, hình ảnh, viadeo, bài viết… Thông qua MXH mọi thành viên có thể kết nối với nhau cùng nhau tạo nên các nhóm có chung sở thích, mối quan tâm… để cùng nhau chia sẻ thông tin và hình thành nên cộng đồng
Như vậy khi nhắc tới khái niệm MXH thì ta hiểu đây là một mạng xã hội ảo online và nó mang nhiều đ ặc điểm, đ ặc tính tương tự như xã hội thực MXH là xã hội ảo tồn tại online có những đặc điểm riêng biệt nên nó sẽ có những điểm khác với xã hội thực
Trong phạm vi của ứng dụng MXH dành cho Cộng đồng hiếm muộn xin sử dụng khái niệm MXH đơn giản như sau: Mạng xã hội cộng đồng hiếm muộn là dịch vụ nối kết các thành viên cùng gặp các vẫn đề liên quan tới với đề hiếm muộn trên Internet lại với nhau, mục đích tạo ra một cộng đồng chia sẻ các thông tin và nơi giao lưu, tâm sự những vấn đề khó khăn trong việc điều trị hiếm muộn.
1.2 Sự phát triển của Mạng xã hội
Theo các thô ng tin trên Wikipedia t ừ khi MXH xuất hiện trên thế giới từ những năm 1995 với sự ra đời của trang Classmate với mục đích kết nối bạn học, tiếp theo là sự xuất hiện của SixDegrees vào năm 1997 với mục đích giao lưu kết
Trang 12Chương 1: Giới thiệu tổng quan
bạn dựa theo sở thích Tới nay theo thống kế Search Engine Journal trong năm
2014 có 72% số người sử dụng Internet hiện nay đang ho ạt động trên các mạng xã hội, 71% người dùng truy cập mạng xã hội từ thiết bị di động Đây là con số thống
kê từ năm 2014 và với tốc độ phát triển của Internet thì con số này ở thời điểm hiện tại sẽ còn tang lên đáng kể Các thống kê về 3 MXH được nhiều người sử dụng nhất hiện nay:
Facebook vẫn đang là mạng xã hội lớn nhất hiện nay với hơn 1,15 tỷ người dùng Theo thống kê, hiện có 23% người dùng Facebook đăng nhập ít nhất 5 lần mỗi ngày, thời gian dành cho Facebook trong mỗi giờ vào mạng tùy thuộc vào từng quốc gia (top 3 sử dụng nhiều nhất hiện nay đang là Mỹ với 16 phút, Australia 14 phút và Anh là 13 phút)
- Google plus
Google plus hiện đã đạt đến 359 triệu người dùng hoạt động hàng tháng, đạt tốc độ tăng trưởng 33% mỗi năm Những người trong độ tuổi 45 đến 54 đã gia tăng mức độ sử dụng Google plus thêm 56% kể từ năm 2012
Twitter là mạng xã hội phát triển nhanh nhất với tốc độ tăng trưởng 44% trong giai đoạn 2012 đến 2013 Hiện nay đã có hơn 550 triệu người dùng đã đăng
ký Twitter và 215 triệu người dùng hoạt động hàng tháng trên mạng xã hội này
1.3 Các mạng xã hội của Việt Nam hiện nay
- ZingMe
Zingme có lẽ là cái tên nổi bật nhất trong số các trang MXH được phát triển của Việt Nam với mong muốn đánh bật FaceBook vào thời kỳ sơ khai khi FaceBook mới bước chân vào Việt Nam trong năm 2009
Khi vừa được giới thiệu, Zing Me không gây được ấn tượng vì nó gần như là bản "copy-cat" hoàn chỉnh của Facebook, từ giao diện cho tới tính năng CEO Lê
Trang 13Chương 1: Giới thiệu tổng quan
Hồng Minh chia sẻ bài học đầu tiên để khi làm việc gì, là chấp nhận đi học ở người giỏi hơn mình, xem thành công của họ đi trước ra sao và khi mình làm thì có thể được như vậy không Và tất nhiên khi học phải chịu khó học hỏi, kiên nhẫn…, đừng ngần ngại sao chép lại, nhưng sao chép thì phải hiểu mới thành công được Đúng như tiêu chí trên, Zing Me là mạng xã hội sao chép không hơn không kém Được VNG xây dựng trên tập game thủ lớn nhất trên thị trường Việt Nam, Zing Me có lợi thế rất lớn khi ra mắt với lượng thành viên khi đó( tháng 9 năm 2009) được Zing Me công bố là 945.000 và số lượng thành viên của FaceBook ở Việt Nam được công bố là 918.000 Nhưng hiện tại theo thống kê của Genk số lượng truy cập vào Zing Me chiếm 1 số con số rất nhỏ
Hình 1 Thống kê số lượng truy cập vào ZingMe
Ở đây chúng ta không bàn tới việc số lượng thành viên của Zingme mà chúng ta quan tâm tới số lượng truy cập và sự phổ biến của Zingme ở Việt Nam Cũng theo 1 bài viết trên Genk đã ví von Zing me nay chỉ là “Thành phố ma”
Trang 14Chương 1: Giới thiệu tổng quan
Sự ra đời của GO.VN là dự án lớn nằm trong chủ trương và kỳ vọng của Chính phủ, Bộ Thông tin & Truyền thông, sự ủng hộ và mong đợi của các doanh nghiệp và cộng đồng mạng Việt Nam, với mục tiêu huy động trí tuệ người Việt Nam để xây dựng mạng thông tin khổng lồ của người Việt Nam, sản phẩm trí tuệ, công nghệ cao có quy mô và t ầm vóc thế giới về giáo dục, giải trí và chia sẻ thông tin
- Yume.vn
Được phát triển bởi Vietnam Online Network (VON) ra đời vào tháng 10 năm 2008, với mục đích “Liên kết hàng triệu user, kết nối không giới hạn Yume đi theo mô hình gần giống với mạng cộng đồng Facebook và MySpace Nhưng xét về giao diện, YuMe.vn sẽ giúp người dùng Việt Nam tiếp cận dễ dàng hơn, dễ dùng hơn
- Tamtay.vn
Ra đời cùng thời điểm bùng nổ mạng xã hội tại Việt Nam vào tháng 3/2007, Tamtay.vn là mạng xã hội “made in Vietnam” đầu tiên tích hợp đ ầy đ ủ tính năng của một mạng xã hội theo chuẩn quốc tế: Cho phép người dùng đăng và chia sẻ miễn phí video, ảnh, nhạc, viết blog, tìm và kết bạn, cập nhật thông tin bạn bè, chơi game, chat…
Đặc điểm chung của các trang mạng xã hội này là ra đời vào thời kỳ phát triển mạnh mẽ nhất của trào lưu mạng xã hội những năm 2007-2009 Là các trang mạng
xã hội của người Việt và dành cho người Việt Những trang này đề cao cái "tôi" dân tộc, đánh vào thế mạnh bản địa hóa để lấy nó làm lợi thế so với Facebook Đây tưởng chừng là lợi thế trời cho nhưng nó lại không mang tới tác dụng như mong muốn Và mình chứng rõ rà nhất là đến này các trang mạng xã hội này gần khi đã bị khai tử và được ví von như những thành phố ma Đây thực sự là một điều đáng buồn nhưng nó là sự tất yếu của quá trình chọ n lọc Xin trích dẫn lời nói của CEO Nokia đã nói: The advantage you have yesterday, will be replaced by the trends of tomorrow(Các lợi thế bạn có ngày hôm qua, sẽ được thay thế bởi các xu hướng của ngày mai)
Trang 15Chương 1: Giới thiệu tổng quan
2 Cơ sở khoa học và thực tiễn của đề tài
- PhpFox:
PhpFox là công c ụ được xem là phổ biến và dễ dàng nhất để tạo nên một mạng xã hội PhpFox là mã nguồn mở được phát triển trên nền tảng PHP & MySQL PhpFox cung cấp cho người dung rất nhiều tính năng tiện lợi để xây dựng
và quản lý một trang mạng xã hội:
Quản trị hệ thống đơn giản
Khả năng thêm/tạo blog, diễn đàn, chat, hình ảnh, video…
Độ bảo mật cao(ví dụ: riêng tư, ngăn chặn spam,…)
Hỗ trợ tích hợp các modul từ bên thứ 3
Cho phép tích hợp thêm quảng cáo
Dễ dàng tích hợp Content Delivery Network(CDN) để tăng tốc độ trang web
Có cả phiên bản dành cho di động
Cho phép tích hợp các ứng dụng và trò chơi vào mạng xã hội…
Đây là bộ Open source đáp ứng nhu cầu mục đích xây dựng một trang mạng
xã hội cộng đông hiếm muộn Bởi mục đích xây dựng trang MXH cộng đồng hiếm muộn cần: tính đơn giản khi xây dựng, có diễn đàn, và các tính năng của một trang MXH
Trang 16Chương 1: Giới thiệu tổng quan
- JomSocial
Jomsocial cũng là công cụ để phát triển mạng xã hộ với các đặc tính nổi bật:
Hỗ trợ nhiều tính năng độc đáo khác: tập tin tải lên, nghe nhạc, hệ thống trò chuyện và dịch thuật với nhiều ngôn ngữ khác nhau
Công nghệ Responsive, dùng được trên các thiết bị di động, máy tính bảng…
Quản lý danh sách bạn bè Quản lý sự kiện các hoạt động cộng đồng Chia sẻ media với bộ sưu tập hình ảnh và video
Dễ dàng hiết lập các diễn đàn thảo luận nhóm bằng nhiều chế độ tùy chỉnh khác nhau
Chia sẻ thông tin với bạn bè qua tin nhắn
Hỗ trợ Postbox để gửi thông tin cập nhật, hình ảnh, video và các sự kiện
Cung cấp tính năng 'Like' và 'Comment' trên các hoạt động
sĩ Hồ Mạnh Tường - Tổng Thư ký Hội Nội tiết sinh sản và vô sinh cho biết thông tin trên tại Hội thảo quốc tế về hỗ trợ sinh sản tổ chức vào sáng 31-04-2014 tại
Thành phố Hồ Chí Minh
Trang 17Chương 1: Giới thiệu tổng quan
Theo bác sĩ Tường nghiên cứu dịch tễ vừa được Bộ Y tế thực hiện cho thấy
có 7,7% các cặp vợ chồng ở Việt Nam bị hiếm muộn cần khám và điều trị Tính ra
là gần 1 triệu cặp vợ chồng gặp các vấn đề liên quan tới hiếm muộn
Xuất phát từ thực tế bản thân tôi hiện tại cũng là một trong những cặp vợ chồng hiếm muộn đã đi chữa trị ở các trung tâm nổi tiếng về nam học ở Việt Nam như: phòng khám Tâm Anh của GS Trần Quán Anh, viện 103 của GS.TS Quảng Hoàng Lâm, tôi cũng đã tiếp xúc với rất nhiều các cặp hiếm muộn khác và tôi đã thấy được rằng các c ặp hiếm muộn đều có điểm chung là không biết chia sẻ cùng ai những vấn đề mình gặp phải Gia đình, bạn bè nhận được rất ít sự chia sẻ Đặc biệt
là về phía gia đình, có 90% các cặp vợ chồng tôi đã t ừng nói chuyện thì đều nhận thấy gia đình luôn là áp lực rất lớn ảnh hưởng tới các cặp hiếm muộn
Những vấn đề mà một cặp hiếm muộn gặp phải khi điều trị: thời gian, tiền của, công sức, thô ng tin về việc điều trị những phương pháp mới nhất được áp dụng cho điều trị, những điều khó nói và không được chia sẻ với ai
Vấn đề thời gian và tiền của thì tự thân các cặp hiếm muộn phải tự lo liệu và cần sự giúp đỡ của người thân Nhưng bên cạnh đó vẫn đề thông tin và chia sẻ những vấn đề liên quan tới tâm lý thì chưa có một diễn đàn chuyên về việc này
Về vấn đề thông tin khi bạn lên mạng tìm hiểu thì sẽ ra rất nhiều quảng cáo
về các bài thuốc chữa hiếm muộn, đông y có, tây y có, bệnh viện nổi tiếng có, bệnh viện tư nhân có Nơi nào cũng đưa ra các bài viết và cho dẫn chứng về các trường hợp mình chữa trị được Bạn sẽ dễ dẫn đến tình trạng loạn thông tin và không biết trường hợp của mình thì nên theo phương pháp nào, địa chỉ nào cho phù hợp Không có một cơ sở nào dẫn chứng nhiều cho các trường hợp thực tế đã theo chữa trị ở các địa chỉ đó nói lên các kinh nghiệm hoặc những điều mình đã trải qua khi thực hiện ở đó
Việt Nam cũng là một nước Á Đông và mang nặng tư tưởng phong kiến thì nhắc đến vấn đề gặp phải khi cần hỗ trợ của các biện pháp hỗ trợ sinh sản thì các cặp hiếm muộn rất khó để nói ra Sức ép của gia đình và s ự nhìn nhận chưa đúng cũng như bảo thủ, cái tôi quá lớn của cá nhân… tác động lên các cặp hiếm muộn
Trang 18Chương 1: Giới thiệu tổng quan
thực sự là quá lớn Là người trong cuộc tôi hiểu rất rõ vấn đề này Thiếu tự tin trước những câu hỏi của mọi người xung quanh, tìm cách l ẩn trốn và sống thu người lại Muốn tìm những người cùng cảnh ngộ để chia sẻ cũng khó khăn
Xuất phát từ cơ sở khoa hoc và thực tế đã nêu trên, tôi đã quyết định xin nhận đề tài: NGHIÊN CỨU ỨNG DỤNG CỦA LÝ THUYẾT ĐỒ THỊ TRONG VIỆC PHÂN TÍCH MẠNG XÃ HỘI Với mong muốn xây dựng lên một MXH dành riêng cho các cặp hiếm muộn ở Việt Nam Một nơi mà các cặp hiếm muộn có thể chia sẻ các thô ng tin với nhau, chia sẻ cảm xúc, chia sẻ những điều khó nói mà không biết chia sẻ cùng ai
3 Mục đích của đề tài (các kết quả cần đạt được)
- Xây dựng được một diễn đàn là nơi chia sẻ các vấn đề lien quan tới vấn đề hiếm muộn
- Xây dựng được MXH dành riêng cho các thành viên có quan tâm nhiều tới việc hiếm muộn
- Hoàn thành được tính năng gợi ý kết bạn trên trang Cộng đồng hiếm muộn
- Đưa ra lý thuyết đã được áp dụng cho việc phân nhóm cộng đồng
4 Bố cục Luận văn
Nội dung chính của luận văn được chia thành 4 chương như sau:
Chương 1: Giới thiệu tổng quan
Lý do chọn đề tài, cơ sở khoa hoc và thực tiễn đề tài, mục đích đề tài
Chương 2: Ứng dụng của lý thuyết đồ thị trong phân tích mạng xã hội
Giới thiệu ứng dụng lý thuyết đồ thị trong việc phân nhóm MXH
Chương 3: Bài toán Cộng đồng hiếm muộn
Phân tích thiết kế MXH Cộng đồng hiếm muộn
Chương 4: Thực nghiệm và kết quả đạt được
Xây dựng tính năng cho MXH Cộng đồng hiếm muộn và kết quả đạt được
Trang 19Chương 2: ứng dụng của lý thuyết đồ thị trong phân tích mạng xã hội
CHƯƠNG 2: ỨNG DỤNG CỦA LÝ THUYẾT ĐỒ THỊ TRONG PHÂN
TÍCH MẠNG XÃ HỘI
Lý thuyết đồ thị là lĩnh vực nghiên cứu đã tồn tại từ những năm đầu của thế kỷ
18 nhưng lại có những ứng dụng hiện đại Những tư tưởng cơ bản của lý thuyết đồ thị được nhà toán học người Thụy Sĩ Leonhard Euler đề xuất và chính ông là người dùng lý thuyết đồ thị giải quyết bài toán nổi tiếng “Cầu Konigsberg”
Đồ thị được sử dụng để giải quyết nhiều bài toán thuộc các lĩnh vực khác nhau Chẳng hạn, ta có thể dùng đồ thị biểu diễn mối quan hệ giữa các cá nhân, tổ chức với nhau, dùng đồ thị để biểu diễn những mạch vòng của một mạch điện, dùng đồ thị biểu diễn quá trình tương tác giữa các loài trong thế giới động thực vật Có thể nói, lý thuyết đồ thị được ứng dụng rộng rãi trong tất cả các lĩnh vực khác nhau của thực tế cũng như những lĩnh vực trừu tượng của lý thuyết tính toán
Trong việc phân tích mạng xã hội bản chất là chúng ta đi tìm các điểm chung của các thực thể để xác định và phân chia các thực thể đó và các nhóm hay chính là cộng đồng trong mạng xã hội đó
2.1 Lý thuyết đồ thị
2.1.1 Định nghĩa đồ thị
Đồ thị (Graph) là một cấu trúc dữ liệu rời rạc bao gồm các đỉnh và các cạnh
nối các cặp đỉnh này Chúng ta phân biệt đồ thị thông qua kiểu và số lượng cạnh nối giữa các cặp đỉnh của đồ thị Dựa vào sự phân biệt này chúng ta chia đồ thì ra thanh các dạng đồ thị như sau:
Đơn đồ thị vô hướng
Đơn đồ thị vô hướng G = <V, E> bao gồm V là tập các đỉnh, E là tập các cặp
có thứ tự gồm hai phần tử khác nhau của V gọi là các cạnh hay là các cung
Trang 20Chương 2: ứng dụng của lý thuyết đồ thị trong phân tích mạng xã hội
Hình 2 Đơn đồ thị vô hướng
Đa đồ thị vô hướng
Đa đồ thị vô hướng G = <V, E> bao gồm V là tập các đỉnh, E là họ các cặp không có thứ tự gồm hai phần tử khác nhau của V gọi là tập các cạnh e1, e2 được gọi là cạnh lặp nếu chúng cùng tương ứng với một cặp đỉnh
Hình 3 Đa đồ thị vô hướng
Trang 21Chương 2: ứng dụng của lý thuyết đồ thị trong phân tích mạng xã hội
Giả đồ thị vô hướng
Giả đồ thị vô hướng G = <V, E> bao gồm V là tập đỉnh, E là họ các cặp không
có thứ tự gồm hai phần tử (hai phần tử không nhất thiết phải khác nhau) trong V được gọi là các cạnh Cạnh e được gọi là khuyên nếu có dạng e =(u, u), trong đó u
là đỉnh nào đó thuộc V
Hình 4 Giả đồ thị vô hướng
Đơn đồ thị có hướng
Đơn đồ thị có hướng G = <V, E> bao gồm V là tập các đỉnh, E là tập các cặp
có thứ tự gồm hai phần tử của V gọi là các cung
Hình 5 Đơn đồ thị vô hướng
Trang 22Chương 2: ứng dụng của lý thuyết đồ thị trong phân tích mạng xã hội
Đa đồ thị có hướng
Đa đồ thị có hướng G = <V, E> bao gồm V là tập đỉnh, E là cặp có thứ tự gồm hai phần tử của V được gọi là các cung Hai cung e1, e2 tương ứng với cùng một cặp đỉnh được gọi là cung lặp
Hình 6 Đa đồ thị có hướng
2.1.2 Biểu diễn mạng xã hội theo đồ thị
MXH được cấu tạo từ các nút và các cung, trong đó các nút được liên kết với nhau bởi một hoặc nhiều cung, thể hiện kiểu mối quan hệ cụ thể Mỗi nút, còn được gọi là tác nhân (actor), biểu diễn cho một đối tượng trong xã hội, có thể là một người, một tài liệu, một tổ chức, một quốc gia,… Mối liên hệ giữa các nút được biểu diễn bởi một liên kết giữa các nút đó Liên kết này có thể là mối quan hệ bạn bè, họ hàng, đồng nghiệp,…, cũng có thể là các trao đổi tài chính, các giao dịch, số liệu,…Các liên kết này có thể là liên kết vô hướng (hay còn gọi
là liên kết đối xứng ), trong đó mối quan hệ giữa 2 nút A và B là mối quan hệ qua lại, ví dụ A là bạn B, và B cũng là bạn A, hay A và B học cùng một lớp tại trường tiểu học, trường trung học hoặc cùng lớp đ ại học,…Các liên kết này cũng có thể là liên kết có hướng, ví dụ A thích B, nhưng B chưa chắc đã thích A, hay là A nợ tiền của B….Mặt khác, các liên kết còn có thể được đánh trọng số, trọng số này biểu diễn độ mạnh của liên kết đó giữa hai nút
Trang 23Chương 2: ứng dụng của lý thuyết đồ thị trong phân tích mạng xã hội
Trong biểu diễn đồ thị của mạng xã hội, các đỉnh được dùng để biểu diễn các nút và các cạnh dùng để biểu diễn liên kết giữa các nút Các cạnh trong đồ thị có thể vô hướng hay có hướng, cũng có thể được đánh trọng số tùy thuộc vào nhu cầu biểu diễn liên kết là vô hướng hay có hướng, trọng số như thế nào
Hình 7 Biểu diễn mạng xã hội theo đồ thị
2.2 Cộng đồng trong mạng xã hội
2.2.1 Các khái niệm chung
- Xã hội là một tập thể hay một nhóm những người được phân biệt với các nhóm người khác bằng các lợi ích, mối quan hệ đặc trưng, chia sẻ cùng một thể chế và có cùng văn hóa Đây là khái niệm về xã hội trong thực tế và một khái niệm rất rộng Nhưng từ khái niệm tổng quát về xã hội thực tế ta thấy rằng một trong những yếu tố cơ bản của xã hội là sự phân nhóm hay chính đó là cộng đồng
- Một cộng đồng là một nhóm xã hội của các cơ thể sống chung trong cùng một môi trường thường là có cùng các mối quan tâm chung Trong cộng đồng người
đó là kế hoạch, niềm tin, các mối ưu tiên, nhu cầu, nguy cơ và một số điều kiện khác có thể có và cùng ảnh hưởng đến đ ặc trưng và sự thống nhất của các thành viên trong cộng đồng Cộng đồng được hình thành trên cơ sở các mối liên hệ giữa
cá nhân và tập thể dựa trên cơ sở tình cảm là chủ yếu, ngoài ra còn có các mối liên
Trang 24Chương 2: ứng dụng của lý thuyết đồ thị trong phân tích mạng xã hội
hệ tình cảm khác Cộng đồng có sự liên kết cố kết nội tại không phải do các quy tắc
rõ ràng thành văn, mà do các quan hệ sâu hơn, được coi như kà một hằng số văn hóa
Hình 8 Ví dụ về một đồ thị với 3 cộng đồng
2.2.2 Ý nghĩa của việc phát hiện cộng
Trong xã hội hiện nay xuất hiện nhiều nhóm hoặc tổ chức với kích cỡ khác nhau, ví dụ như gia đình, nhóm các bạn bè ho ặc đồng nghiệp, thành phố, quốc gia…Sự khuếch tán của Internet ngày nay cũng sinh ra nhiều nhóm ảo trên Web, hay còn được gọi là các cộng đồng trực tuyến Các cộng đồng xã hội đã được nghiên cứu trong một thời gian rất dài và thường xuyên xuất hiện trong nhiều các
hệ thố ng mạng trong sinh học, khoa học máy tính, công nghệ, chính trị, kinh tế,…ví dụ như: các nhóm protein với các chức năng tương tự nhau trong tế bào trong mạng tương tác protein, các nhóm trang web thảo luận về cùng một chủ đề hoặc các chủ đề tương tự nhau trên World Wide Web,…
Với sự phát triển nhanh chóng của các cộng đồng trong thời điểm hiện tại và nhu cầu cần thiết về tìm hiểu tính cộng đồng trong các mạng xã hội, bài toán phát hiện cộng đồng trở thành một bài toán phổ biến trong các nghiên cứu
Trang 25Chương 2: ứng dụng của lý thuyết đồ thị trong phân tích mạng xã hội
về mạng xã hội Mục tiêu của bài toán là từ các mạng xã hội cho trước, phát hiện được các cấu trúc cộng đồng nằm trong đó và tìm hiểu về mối liên hệ bên trong các cộng đồng cũng như giữa các cộng đồng với nhau, mối liên hệ đó có ảnh hưởng thế nào đến cấu trúc của toàn mạng xã hội
Việc phát hiện cộng đồng có rất nhiều ứng dụng cụ thể Ví dụ như phân cụm các Web client có sở thích tương tự nhau và gần nhau về mặt địa lý có thể cải thiện hiệu suất của việc cung cấp dịch vụ trên World Wide Web, trong đó mỗi cụm khách hàng được phục vụ bởi một server chuyên dụng Một ứng dụng khác đó là việc xác định các cụm khách hàng có chung sở thích trong một mạng thể hiện quan hệ giữa người mua và sản phẩm trên một trang web bán hàng trực tuyến (ví dụ www.amazon.com ) có thể giúp xây dựng hệ thống tư vấn mua bán một cách hiệu quả Ngoài ra, sự phân cụm trong các đồ thị cỡ lớn có thể được
sử dụng trong việc lưu trữ các dữ liệu của đồ thị một cách thuận tiện Một ứng dụng khác nữa là nhóm thành cụm các nút trong mạng lưới giao thông có thể giúp ích trong việc xây dựng các bảng định tuyến nhỏ gọn giúp ích trong việc tham gia giao thông thuận tiện
Ngoài ra, việc phát hiện cộng đồng có ý nghĩa rất quan trọng vì một
lý do khác Việc xác định các module và ranh giới của chúng cho phép ta phân lớp các đỉnh dựa trên cấu trúc vị trí của chúng trong module Từ đó, các đỉnh ở vị trí trung tâm trong module của chúng (có nhiều kết nối cạnh đến các đỉnh khác trong module) có thể đóng vai trò quan trọng trong việc điều khiển và giữ ổn định trong cụm Mặt khác, các đỉnh ở vùng biên có thể giữ vai trò quan trọng trong việc dẫn dắt mối quan hệ và giao lưu giữa các cụm khác nhau trong mạng Các phân lớp như thế mang một ý nghĩa nhất định trong việc nghiên cứu mạng xã hội Cuối cùng, ta có thể nghiên cứu về đồ thị rút gọn, trong đó các đỉnh là các cụm và các cạnh là các liên kết giữa các cụm trong đồ thị ban đầu (nếu có) từ đó
ta thu được một đồ thị biểu diễn mối quan hệ của các module trong mạng
Trang 26Chương 2: ứng dụng của lý thuyết đồ thị trong phân tích mạng xã hội
Một khía cạnh quan trọng khác nữa trong cấu trúc cộng đồng là cách tổ chức phân cấp, cách tổ chức này có thể nhìn thấy trong hầu hết các mạng xã hội trong thực tế Một mạng trong thực tế thường bao gồm các cộng đồng mà trong
đó mỗi cộng đồng lại được cấu tạo từ một tập các cộng đồng khác, các cộng đồng con đó lại được cấu tạo bằng một tập các cộng đồng con khác nữa,…Một ví dụ dễ thấy nhất cho điều này là cơ thể con người được cấu tạo bởi các cơ quan, mỗi cơ quan được cấu tạo bởi các mô tế bào, các mô tế bào lại được cấu tạo bởi các tế bào, …Herbert A.Simon đã nhấn mạnh vai trò quan trọng của hệ thố ng phân cấp và sự tiến hóa của các hệ thố ng phức tạp Sự sinh ra và tiến hóa của các
hệ thố ng tổ chức bởi các hệ thống con ổn định là nhanh chóng hơn rất nhiều
so với các hệ thống không cấu trúc, bởi vì ta có thể xây dựng các phần nhỏ trước và sau đó sử dụng chúng để xây dựng các thành phần lớn hơn và cứ thế cho đến khi toàn bộ hệ thống được xây dựng Phương pháp này khó có thể xảy ra lỗi trong quá trình xây dựng hệ thống
Việc xác đinh cộng đồng trong đồ thị cũng là một chủ đề phổ biến trong khoa học máy tính, trong đó có hai lĩnh vực điển hình là học máy và khai phá quan điểm Ví dụ trong tính toán song song, việc xác định phương pháp giao các công việc cho các bộ xử lý sao cho giảm thiểu tối đa sự liên lạc giữa chúng
và tối đa hóa hiệu suất tính toán là rất quan trọng Điều này có thể thực hiện được bằng cách chia các cụm máy tính thành các nhó m có số lượng bộ xử lý gần tương
tự nhau, như vậy số lượng kết nối vật lý giữa các vi xử lý của các nhóm khác nhau là tối thiểu Tên gọi chính thức của vấn đề này là “phân vùng đồ thị”,được
đề xuất lần đầu tiên vào năm 1970
Riêng trong lĩnh vực khai phá dữ liệu, bài toán khai phá cộng đồng trong mạng xã hội cũng có một ứng dụng tương đối rộng rãi Khai phá cộng đồng ứng dụng trực tiếp vào các bài toán chính của khai phá dữ liệu như nhận dạng thực thể, phân cụm, xếp hạng thực thể hay phân lớp thực thể, dự đoán các liên kết hay phát hiện các đồ thị con…, trong đó các nhà khoa học quan tâm nhất đến phân cụm thực thể và xếp hạng các thực thể có liên quan đến nhau trong các
Trang 27Chương 2: ứng dụng của lý thuyết đồ thị trong phân tích mạng xã hội
cụm vừa được phân Các bài toán này mang lại các lợi ích trực tiếp trong thực
tế như trong các máy tìm kiếm, các dịch vụ phục vụ khách hàng, hay các trang web buôn bán trực tuyến
Trong y học các bệnh nhân c ủa một nhóm bệnh có thể coi là một cộng đồng Khi cộng đồng này được liên kết với nhau thì các thông tin, phương pháp điều trị mới nhất từ bác sỹ tới bệnh nhân, từ bệnh nhân này tới bệnh nhân khác trong cùng một cộng đồng là rất nhanh chóng Họ có thể chia sẻ các thông tin, kinh nghiệm đã từng trải qua cho các thành viên trong cộng đồng Từ đó giúp các thành viên trong cộng đồng có thông tinh chính xác và giảm thiểu được thời gian, tiền bạc, công sức khi điều trị sai phương pháp
2.3 Các kỹ thuật gom nhóm – phát hiện cộng đồng
Hiện nay có nhiều phương pháp, kỹ thuật gom nhóm và phát hiện cộng đồng trong mạng xã hội Tư tưởng của các phương pháp dựa trên tính toán riêng: phương pháp dựa vào thuật toán tính toán tâm của nhóm, phương pháp dựa vào thuật toán phân chia, phương pháp dựa vào thuật toán phân cụm với số cụm đã được xác định, phương pháp dựa vào thuật toán cắt lớp đồ thị… Trong phần này ta sẽ đi xâu tìm hiểu về ba phương pháp: tính toán tâm của nhóm, thuật toán phân chia và thuật toán phân cụm với số cụm đã được xác định
2.3.1 Xác định trung tâm trong mạng (Centrality)
Đây là phương pháp xác định tầm quan trọng tương đối của một đỉnh trong
đồ thị Trong mạng xã hội thì mô tả vị trí tương đối của tác nhân trong bối cảnh mạng xã hội của mình để xác định tầm quan trọng của tác nhân trong MXH Một số tiêu chuẩn để đánh giá độ quan trọng của đỉnh trong đồ thị là dựa vào độ đo Độ đo được chia thành các phương pháp: độ đo trung tâm theo bậc, độ đo trung tâm dựa trên trung gian, độ đo trung tâm theo sự lân cận, theo hệ số gom cụm trong mạng
Trang 28Chương 2: ứng dụng của lý thuyết đồ thị trong phân tích mạng xã hội
2.3.1.1 Độ đo trung tâm theo bậc - Degree Centrality
- Công thức tính toán:
Công thức tính độ đo trung tâm theo bậc của đỉnh v:
CD(v) = deg(v) Công thức tính độ đo trung tâm theo bậc theo dạng chuẩn của đỉnh v:
- Ví dụ
Cho đồ thị vô hướng như sau:
Trang 29Chương 2: ứng dụng của lý thuyết đồ thị trong phân tích mạng xã hội
Hình 9 Đồ thị vô hướng 7 đỉnh Dựa vào độ đo trung tâm theo bậc ta tính toán thông tinh cho từng đỉnh như sau:
Bảng 1 Độ đo Degree Centrality của các đỉnh sau khi tính toán
2.3.1.2 Độ đo trung tâm dựa vào trung gian - Betweenness centrality
- Khái niệm
Cho đồ thị G(v,e) có n đỉnh
Độ đo trung tâm dựa vào trung gian của một đỉnh được tính bằng tổng
số các đường đi ngắn nhất ngang qua đỉnh đang xét chia cho tổng số các đường đi ngắn nhất của toàn mạng H ay nó i cách khác thì độ đo trung tâm dựa và trung gian là độ đo dùng để xác định vị trí của tác
Trang 30Chương 2: ứng dụng của lý thuyết đồ thị trong phân tích mạng xã hội
nhân trong mạng mà nó có khả năng kết nối đến những cặp tác nhân hay những nhóm tác nhân khác
- Công thức tính toán:
Công thức tính độ đo trung tâm theo bậc của đỉnh v:
Trong đó:
o σst(v): Tổng số đường đi ngắn nhất từ đỉnh s đến t và có qua đỉnh v (s ≠ v ≠ t)
- Miền giá trị:
Độ đo này có miền giá trị nằm trong khoảng [0 1], đỉnh có giá trị càng lớn thì đỉnh đó sẽ có sự ảnh hưởng tới việc phân bổ cấu trúc của các cụm hay nhóm trong mạng càng lớn Một tác nhân có vai trò trung tâm càng lớn trong mạng thì sẽ có tầm ảnh hưởng lớn trong việc kiểm soát mọi thông tin trao đổi giữa các tác nhân khác trong mạng
- Nhận xét:
Độ đo trung tâm dựa vào trung gian dùng để:
o Xác định xem tác nhân nào trong mạng có thể phá vỡ các mối liên hệ với các tác nhân khác trong mạng
o Xác định vị trí của một đỉnh trong mạng có khả năng kết nối được với các cặp đỉnh khác hay nhóm các đỉnh khác
o Điều khiển luồng thông tin trong mạng: khi một đỉnh nằm giữa (between) các đỉnh khác bị mất đi thì các đỉnh còn lại không thể tiếp tục kết nối được và trao đổi thông tin với nhau Một đỉnh có độ đo Betweenness Centrality càng cao thì:
o Giữ một vị trí đặc biệt quan trọng và một tầm ảnh hưởng rất lớn trong mạng
Trang 31Chương 2: ứng dụng của lý thuyết đồ thị trong phân tích mạng xã hội
o Nếu đỉnh này bị loại bỏ thì sẽ gây ra sự tan rã cấu trúc của mạng, tức là các đỉnh sẽ không còn có thể trao đổi thông tin liên lạc với nhau
- Nếu xóa Alice ra khỏi mạng thì mạng không bị tách rời
- Nếu xóa Aldo, mạng chia cắt mất 2 thành viên là Stefan và Pieree
- Nhƣng nếu xóa Rafael, mạng chia cắt mất 3 thành viên Aldo, Stefan và Pierre Do đó, Rafael là đỉnh quan trọng nhất trong mạng
o Ví dụ 2:
Cho đồ thị gồm các đỉnh v1, v2, v3, v4, v5, v6 và các mối quan hệ : (v1,v2); (v1,v3); (v2,v4); (v3,v2); (v3,v4); (v4,v5); (v4,v6) Đồ thị đƣợc biểu diễn nhƣ sau:
Trang 32Chương 2: ứng dụng của lý thuyết đồ thị trong phân tích mạng xã hội
Trang 33Chương 2: ứng dụng của lý thuyết đồ thị trong phân tích mạng xã hội
Bảng 2 Độ đo trung tâm dựa vào trung gian
Tiếp theo ta tính tổng đường đi ngắn nhất từ đỉnh s tới đỉnh t có qua đỉnh v:
Xét đỉnh v 1: ta thấy không có bất kỳ đường đi từ
đỉnh s bất kỳ tới đỉnh t mà đi qua v 1 Như vậy
Trang 34Chương 2: ứng dụng của lý thuyết đồ thị trong phân tích mạng xã hội
Như vậy:
Dựa vào các độ đo Betweenness Centrality của từng đỉnh ở trên ta thấy
đỉnh v 4 có độ đo cao nhất đồng nghĩa với việc đỉnh v 4 này là đỉnh có tầm ảnh
hưởng cao nhất đối với các đỉnh khác Bên cạnh đỉnh v 4 có 2 đỉnh v 2 , v 3 cũng
có độ đo cao nhưng kém phần quan trọng hơn vì nếu mất một trong hai đỉnh này
thì cấu trúc mạng không thay đổi Thay vào đó nếu mất đỉnh v 4 thì cấu trúc mạng
thay đổi rất lớn vì sẽ mất đi 2 đỉnh v 5 và v 6
Trang 35Chương 2: ứng dụng của lý thuyết đồ thị trong phân tích mạng xã hội
Giá trị các độ đo Betweenness Centrality
Bảng 3 Phân cụm theo độ đo trung gian
2.3.1.3 Độ đo trung tâm theo sự lân cận
Độ đo trung tâm theo sự lân cận đƣợc tính bằng bình quân của tổng
số khoảng cách ngắn nhất từ một đỉnh đến tất cả các đỉnh còn lại: