đồ thị với kích thước rất lớ

1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN MINH SÁNG ĐỒ THỊ VỚI KÍCH THƯỚC RẤT LỚN LUẬN VĂN THẠC SĨ KHOA HỌC Hà nội – 2012 2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN MINH SÁNG ĐỒ THỊ VỚI KÍCH THƯỚC RẤT LỚN Chuyên ngành: Bảo đảm toán học cho máy tính và hệ thống tính toán Mã số: 60.46.35 LUẬN VĂN THẠC SĨ KHOA HỌC Cán bộ hướng dẫn: TS Lê Anh Vinh Hà nội – 2012 3 Mở đầu 4 Chương I. Tổng quan về đồ thị với kích thước rất lớn 6 1.1 Mạng khổng lồ 6 1.2 Chúng ta cần biết gì về chúng? 7 1.3 Làm thế nào để có được thông tin về chúng? 8 1.4 Mô hình chúng thế nào? 10 1.5 Xấp xỉ chúng thế nào? 12 Chương II. Đồ thị ngẫu nhiên 17 2.1 Các mô hình cơ bản 17 2.2 Các tính chất của hầu hết tất cả các đồ thị 22 2.3 Các tập con lớn nhất của các đỉnh 24 2.4 Các đồ thị chính quy ngẫu nhiên 27 2.5 Cấu trúc và xây dựng 29 Chương III Mô hình các mạng xã hội trực tuyến 41 3.1 Mô hình ILT 43 3.2 Các kết quả chính 45 Kết Luận 54 Phụ Lục 55 1. Ký hiệu và kết quả cơ bản 55 2. Một vài phân phối xác suất cơ bản 58 3. Hội tụ trong phân bố 60 Tài liệu tham khảo và trích dẫn 63 4 Mở đầu Ta biết rằng một số lớn các cấu trúc và hiện tượng của thế giới có thể được mô tả bởi các mạng với các phần tử tách rời và các liên kết hay tác động giữa các cặp phần tử đó. Mạng xã hội, với hơn 7 tỷ nút, mạng nơ ron thần kinh trong não con người với số lượng khoảng 100 tỷ nơ ron, mạng Internet với số lượng các trang web hiện nay có thể hơn 30 tỷ… Mạng khổng lồ đưa ra thách thức cho các nhà toán học. Lý thuyết đồ thị - một trong những lĩnh vực toán học phát triển nhanh nhất, phải đối mặt với vấn đề khá mới lạ và độc đáo này. Trong các bài toán lý thuyết đồ thị truyền thống, các đồ thị được đưa ra chính xác và việc tìm kiếm các quan hệ giữa các tham số của nó hoặc các thuật toán hiệu quả đã được nghiên cứu. Nhưng mạng có kích thước khổng lồ (giống như Internet) chưa bao giờ được biết đến đầy đủ. Thậm chí, trong hầu hết trường hợp chúng không được xác định rõ ràng. Đồ thị ngẫu nhiên – một đồ thị được sinh ra bởi một quá trình ngẫu nhiên là một công cụ hữu hiệu để mô hình các mạng khổng lồ, các đồ thị có kích thước rất lớn. Luận văn tập trung vào trình bày và tìm hiểu lý thuyết và các kết quả đã có về các mạng khổng lồ. Các mô hình ngẫu nhiên và mô hình các mạng xã hội trực tuyến. Luận văn gồm ba Chương: Chương I. Tổng quan về đồ thị với kích thước rất lớn. Giới thiệu về đồ thị với kích thước rất lớn, cách thu thập thông tin, cách mô hình và xấp xỉ các mạng có kích thước lớn. 5 Chương II. Các mô hình của đồ thị ngẫu nhiên: giới thiệu các mô hình cơ bản, các tính chất của hầu hết tất cả các đồ thị, các tính chất của đồ thị chính quy, tổng đặc trưng và xây dựng đồ thị Paley Chương III. Mô hình các mạng xã hội trực tuyến. Luận văn hoàn thành được nhờ có sự hướng dẫn, chỉ bảo tận tình của TS Lê Anh Vinh. Em xin cảm ơn thầy về những đóng góp bổ ích đó! Em cũng xin cảm ơn các thầy cô trong bộ môn đã động viên, khích lệ để cho em có thể hoàn thành được luận văn này! Vì khả năng có hạn nên luận văn không tránh khỏi những thiếu sót. Em kính mong các thầy cô xem xét và góp ý! Hà nội, tháng 05 năm 2012 Học viên: Nguyễn Minh Sáng 6 Chương I. Tổng quan về đồ thị với kích thước rất lớn 1.1 Mạng khổng lồ Ta biết rằng một số lượng lớn cấu trúc và các hiện tượng của thế giới có thể được mô tả bởi các mạng: các phần tử tách rời với các liên kết (hay tác động) giữa các cặp phần tử. Trong số các mạng, được biết đến và nghiên cứu nhiều nhất là Internet. Hơn nữa, Internet làm tăng số lượng các mạng: mạng các siêu liên kết (web, Internet toàn cầu), Internet dựa trên các mạng xã hội, phân bố cơ sở dữ liệu,… Kích cỡ Internet phát triển nhanh chóng về số lượng các trang web,… Một mạng gần gũi hơn là mạng xã hội. Mạng xã hội dựa trên sự nghiên cứu các đối tượng thuộc xã hội, lịch sử, kinh tế. Mạng xã hội lớn nhất là một đồ thị quen biết của tất cả mọi người, trong đó mỗi người là một nút và hai người quen nhau khi có cạnh nối hai nút đó. Mạng xã hội có hơn 7 tỷ nút. Một số mạng lớn nhất trong kỹ thuật xảy ra trong thiết kế chíp. Mặc dù các mạng này được con người lập kế hoạch và chế tạo, nhưng nhiều tính chất của chúng rất khó để xác định do kích thước khổng lồ, có thể là hơn một tỷ transitors trên một chíp. Mạng khổng lồ đưa ra thách thức cho các nhà toán học. Lý thuyết đồ thị - một trong những lĩnh vực toán học phát triển nhanh nhất, phải đối mặt với vấn đề khá mới lạ và độc đáo này. Trong các bài toán lý thuyết đồ thị truyền thống, các đồ thị được đưa ra chính xác và việc tìm kiếm các quan hệ giữa các tham số của nó hoặc các thuật toán hiệu quả đã được nghiên cứu. Nhưng mạng có kích thước khổng lồ (giống như Internet) chưa bao giờ được biết đến đầy đủ. Thậm chí, trong hầu hết trường hợp chúng không được xác định rõ. Dữ liệu về chúng chỉ 7 được thu thập qua việc lấy mẫu ngẫu nhiên hoặc bằng cách kiểm tra hoạt động của các quá trình toàn cục khác nhau. Hai đối tượng được nghiên cứu nhiều nhất là mạng dày đặc (trong đó |G| =  (|V| 2 )) và mạng thưa thớt (trong đó |G| = O(|V|)) (xem [16]). Thực tế, các mạng thưa thớt thì quan trọng hơn, nhưng hiện nay chúng ta có một hệ thống kết quả lý thuyết đầy đủ hơn cho các mạng dày đặc. Chương I mang tính chất tổng quan, liên quan đến việc thu thập thông tin, cách mô hình và xấp xỉ các mạng có kích thước rất lớn. Nội dung chủ yếu được dịch từ các bài báo của L. Lova’sz [37]. 1.2 Chúng ta cần biết gì về chúng? Q1. Đỉnh bậc lẻ. Câu hỏi đặt ra là: Đồ thị có một số lẻ các đỉnh không? Đây là một tính chất rất cơ bản của đồ thị trong phân lớp các tập. Một tính chất cơ bản của lý thuyết đồ thị là: trong tất cả các đồ thị với một số lẻ các đỉnh, có một đỉnh bậc chẵn. Nhưng đối với Internet câu hỏi này rõ ràng là vô nghĩa. Q2. Bậc trung bình của các đỉnh. Bậc trung bình của các đỉnh là gì? Đây là câu hỏi đầy ý nghĩa. Tất nhiên, bậc trung bình chỉ có thể được xác định với một sai số nào đó, và nó sẽ thay đổi với công nghệ của người sử dụng, nhưng tại một thời điểm, một xấp xỉ tốt có thể được tìm kiếm. Q3. Tính liên thông. Đồ thị có liên thông không? Với câu hỏi này, câu trả lời gần như là không có. Nhưng điều này không phải là cách thú vị để đặt câu hỏi. Chúng ta xem xét Internet bị ngắt bởi một trận động đất. Vì vậy chúng ta muốn bỏ qua các thành phần nhỏ (không đáng kể liên quan tới toàn bộ đồ thị) và xem xét các đồ thị bị ngắt kết nối chỉ khi nó phân tách thành hai phần (có thể so được với toàn bộ đồ 8 thị). Mặt khác, chúng ta có thể cho phép hai phần đó được kết nối với nhau bởi một vài cạnh và vẫn xem đồ thị đó là không liên thông. Q4. Nhát cắt cực đại. Làm thế nào để tìm kiếm nhát cắt lớn nhất trong đồ thị? Nói một cách khác, chúng ta đi tìm sự phân hoạch các đỉnh thành hai lớp để tối đa số cạnh liên kết hai lớp. Câu trả lời là không dễ dàng. Một phần nhỏ của các cạnh chứa trong nhát cắt lớn nhất có thể được xác định tương đối dễ dàng (với sai số nhỏ cho xác suất lớn), nhưng làm thế nào để xác định nhát cắt lớn nhất trong bản thân chúng? 1.3 Làm thế nào để có được thông tin về chúng? Nếu chúng ta đối mặt với một mạng lớn (như Internet) thách thức đầu tiên là thu được thông tin về chúng. Thông thường chúng ta thậm chí không biết số lượng các nút. 1.3.1 Mẫu địa phương Tính chất của các đồ thị rất lớn có thể được nghiên cứu bởi các mẫu đồ thị con nhỏ. Trong trường hợp các đồ thị dày đặc G, quá trình lấy mẫu là đơn giản. Chúng ta lựa chọn độc lập một số k các đỉnh ngẫu nhiên và xác định các cạnh giữa chúng để có được một đồ thị con cảm sinh ngẫu nhiên (Đồ thị con H của một đồ thị G được gọi là đồ thị con cảm sinh nếu với mọi cặp đỉnh x, y của H, (x,y) là một cạnh của H nếu và chỉ nếu (x,y) là một cạnh của G.). Chúng ta gọi chúng là các mẫu đồ thị con. Cho mỗi đồ thị F, chúng ta định nghĩa một xác suất quan sát F khi |V(F)| các đỉnh được lấy mẫu và đưa ra một phân bố xác suất ,Gk  trên tất cả các đồ thị với k đỉnh. Mẫu này chứa đủ thông tin để xác định nhiều tính chất và tham số của đồ thị (xem [37]). 9 Trong trường hợp các đồ thị thưa thớt với bậc bị chặn, phương pháp lấy mẫu các đồ thị con dẫn tới một kết quả tầm thường: trong đồ thị con được lấy mẫu, các cạnh sẽ ít hơn. Xác suất là cách tự nhiên nhất để xem xét mẫu lân cận. Cho d G là lớp các đồ thị hữu hạn với tất cả các bậc bị chặn bởi d . Với d G G , chọn một đỉnh ngẫu nhiên và khảo sát lân cận của chúng tới một khoảng cách m cho trước. Điều này cung cấp một phân bố xác suất ,Gm  trên các đồ thị trong d G với một đỉnh gốc định rõ sao cho tất cả các đỉnh có khoảng cách tối đa m từ gốc. Các đồ thị gốc như các m-cầu và số lượng m-cầu là hữu hạn nếu d và m là cố định (xem [37]). Đồng cấu giữa hai đồ thị: Một đồ thị G được gọi là đồng cấu tới một đồ thị H nếu có một ánh xạ từ ( ) ( )V G V H thỏa mãn: với hai đỉnh kề trong G thì hai đỉnh tương ứng của chúng là kề trong H. Phân bố mẫu (trong cả hai trường hợp dày đặc và thưa thớt) là tương đương để tính toán các đồ thị con cảm sinh của một kiểu cho trước. Để thay thế điều này, chúng ta có thể tính toán số đồng cấu (hoặc các tự đồng cấu) của các đồ thị ―nhỏ‖ vào đồ thị gốc. 1.3.2 Quan sát quá trình toàn cục Những nguồn thông tin khác về một mạng là việc quan sát hoạt động của các quá trình toàn cục khác nhau (qua việc xem xét một vài tham số toàn cục) hoặc địa phương (tại một nút hoặc một vài các nút lân cận, nhưng trong thời gian lâu hơn). Tuy nhiên một lý thuyết tổng quát của các quan sát địa phương chưa xuất hiện (xem [6]). 10 1.3.3 Đồng cấu trái và phải Thay vì kiểm tra, sẽ thuận tiện hơn để nói về đồng cấu giữa các đồ thị. Điều này dẫn đến các thiết lập sau. Nếu chúng ta đưa ra một đồ thị G lớn, chúng ta có thể nghiên cứu các cấu trúc địa phương của nó bằng cách tính toán các đồng cấu từ nhiều đồ thị nhỏ khác nhau F vào G và chúng ta có thể nghiên cứu cấu trúc toàn cục của nó bằng cách tính các đồng cấu của nó vào trong các đồ thị nhỏ khác nhau H . 1.4 Mô hình chúng thế nào? 1.4.1 Đồ thị ngẫu nhiên Đồ thị ngẫu nhiên được nghiên cứu từ thập kỷ 50. Mô hình đồ thị ngẫu nhiên đơn giản nhất được phát triển bởi Erdo‖s, Re’nyi (xem [22]) và Gilbert năm 1959 (xem [27]). Cho số nguyên dương n và số thực p, 0 ≤ p ≤ 1 . Đồ thị ngẫu nhiên G(n,p) là một đồ thị với tập đỉnh được gán nhãn [n] = {1,2,…,n} và mỗi cặp đỉnh có một xác suất liên kết độc lập p. Có nhiều mô hình thay thế, bản chất là tương đương: chúng ta cố định số cạnh là m và sau đó chọn một tập con m phần tử ngẫu nhiên từ tập các cặp trong [n], thống nhất từ tất cả các tập con. Đồ thị ngẫu nhiên như vậy ký hiệu là G(n,m) tương tự như G(n,p) với m = p 2 n    . Một mô hình khác, gần gũi hơn, phát triển gần đây là các đồ thị tiến hóa ngẫu nhiên, trong đó các cạnh được thêm vào lần lượt và luôn chọn thống nhất từ tập các cặp không liên thông. Dừng quá trình này sau m bước, chúng ta có đồ thị G(n,m). Đồ thị ngẫu nhiên Erdo‖s-Re’nyi có nhiều tính chất ngạc nhiên, thú vị. Các đồ thị ngẫu nhiên với mật độ cạnh cho trước đều có các tính chất giống nhau. Ví dụ: các tham số cơ bản, số màu, đồ thị con đều lớn nhất, mật độ tam giác,… [...]... thể của các đồ thị có một vài tính chất của các đồ thị ngẫu nhiên điển hình Các cấu trúc cụ thể giống với các đồ thị ngẫu nhiên điển hình sẽ được gọi là các đồ thị ngẫu nhiên cụ thể hay các đồ thị giả ngẫu nhiên Ví dụ điển hình của một đồ thị ngẫu nhiên cụ thể là đồ thị Paley hay đồ thị thặng dư Pq, với tập các đỉnh là Fq là trường hữu hạn bậc q trong đó q là một số mũ nguyên tố đồng dư với modun 4,... tiên nối với đỉnh cô lập cuối cùng sẽ làm đồ thị liên thông 2.2 Các tính chất của hầu hết tất cả các đồ thị Nếu M không phải là quá nhỏ, cũng không quá gần N thì với mọi đồ thị cố định H, hầu hết GM có tính chất khá thú vị, đó là đồ thị H có thể nhúng trong nó bởi đỉnh Để chính xác hơn, các đồ thị cho trước F  H, trong miền lớn của M, hầu hết GM thỏa mãn nếu GM có một đồ thị con đồng cấu với F thì... (2.2) và Q là một tính chất của các đồ thị được cho bởi một khẳng định tân từ Khi đó hoặc là Q đúng với hầu hết mọi đồ thị trong G (n,M) và G (n,p) hoặc không với hầu hết mọi đồ thị trong G (n,M) và G (n,p) Chứng minh: Chúng ta muốn có một đồ thị duy nhất (đối với phép đẳng cấu) với một tập đếm được các đỉnh có tính chất Pk với mọi k Một ví dụ là đồ thị G0 = (N,E) với E = {ij: i < j,pi|j}, trong đó... mọi Gp có tính chất Q Điều ngược lại rất khó xảy ra Vì vậy, các khẳng định liên quan đến phần lớn đồ thị trong G(N,p) thường mạnh hơn các khẳng định trong phần lớn Gp Một quá trình đồ thị ngẫu nhiên trên V = {1,…,n} hay đơn giản là một quá  trình đồ thị là một xích Markov G  (Gt ) có trạng thái trên V Quá trình bắt đầu 0 n với đồ thị rỗng và với 1  t    , đồ thị Gt thu được từ Gt-1 bằng cách... phân bố giảm theo luật số lớn (xem [37]) 1.4.3 Các đồ thị tựa ngẫu nhiên Lý thuyết đồ thị ngẫu nhiên được giới thiệu bởi Thomason (xem [44]) và Chung, Graham, Wilson (xem [18]) dựa trên các quan sát sau: không chỉ đồ thị ngẫu nhiên có nhiều tính chất khá ngặt (với xác suất lớn) mà đối với một số tính chất cơ bản, các đồ thị đặc biệt cũng vậy Chúng ta xem xét dãy đồ thị Gn với | V (Gn )  | Để đơn... các tính chất đồ thị, nó lại không phản ánh tốt sự tương đồng về cấu trúc Chúng ta xem xét hai đồ thị ngẫu nhiên trên [n] với mật độ cạnh 1/2 Như đề cập trong phần giới thiệu, những đồ thị này là tương tự nhau gần như ở mọi khía cạnh nhưng khoảng cách sửa của chúng là lớn (khoảng 1/2 với xác suất lớn) Một rắc rối khác với khái niệm khoảng cách sửa là nó chỉ định nghĩa được khi hai đồ thị có cùng một... cho giới hạn của một dãy các đồ thị giống như tập hợp các phân bố xác suất trên các đồ thị Điều này không phải luôn luôn giúp ích cho việc mô tả các đối tượng giới hạn, và một mô tả rõ ràng hơn là luôn được mong đợi 16 Chương II Đồ thị ngẫu nhiên Mô hình đồ thị ngẫu nhiên là một công cụ hữu hiệu để mô hình các mạng có kích thước rất lớn Mục đích chính của lý thuyết đồ thị ngẫu nhiên là xác định một... đồ thị với bậc bị chặn bằng cách thay thế trong (1.1) phân bố mẫu  G ,k bởi phân bố lân cận G ,k Tuy nhiên, rất khó có thể định nghĩa khoảng cách giữa hai đồ thị với bậc bị chặn để phản ánh sự giống nhau toàn cục của chúng (xem [37]) 1.5.2 Khoảng cách cắt của hai đồ thị Định nghĩa về khoảng cách của hai đồ thị tùy ý khá phức tạp và chúng ta sẽ xem xét vấn đề theo các bước: bắt đầu với hai đồ thị. .. đỉnh có một đỉnh nối với tất cả các đỉnh còn lại Khi đó 0 < p < 𝜀 nếu n đủ lớn và 1 5  limP(G p hasQ)  limP(G p hasQ)  2 8 Định lý được chứng minh trong [8] □ 2.3 Các tập con lớn nhất của các đỉnh Lý do chính tại sao các đồ thị ngẫu nhiên thường cung cấp các ví dụ của các đồ thị không có cấu trúc rõ ràng, đó là, một đồ thị ngẫu nhiên là một đồ thị hầu chính quy với các tính chất đồng cấu mạnh đáng... chính của Định lý 2.13 là khi chúng ta nghiên cứu các đồ thị ngẫu nhiên chính quy (với các đồ thị mà bậc không phát triển quá nhanh với n), 28 để thay thế cho sự xem xét tập các đồ thị chính quy, chúng ta xem xét tập các trạng thái Hệ quả 2.15 nếu r  2 là cố định và Q* đúng với phần lớn các trạng thái (tức là P(Q*  1) ) thì Q đúng với hầu hết mọi đồ thị r-chính quy Hệ quả 2.16 Cho r  2 và m  3 là các . đồ thị với kích thước rất lớn. Giới thiệu về đồ thị với kích thước rất lớn, cách thu thập thông tin, cách mô hình và xấp xỉ các mạng có kích thước lớn. 5 Chương II. Các mô hình của đồ thị. tính chất rất cơ bản của đồ thị trong phân lớp các tập. Một tính chất cơ bản của lý thuyết đồ thị là: trong tất cả các đồ thị với một số lẻ các đỉnh, có một đỉnh bậc chẵn. Nhưng đối với Internet. sau: không chỉ đồ thị ngẫu nhiên có nhiều tính chất khá ngặt (với xác suất lớn) mà đối với một số tính chất cơ bản, các đồ thị đặc biệt cũng vậy. Chúng ta xem xét dãy đồ thị G n với | ( ) | n VG

Định dạng
Số trang	67
Dung lượng	1,71 MB