Trong các bài toán về đồ thị thì sau đây chúng ta sẽ thực hiện phân tích các bài toán cho Luận văn: đánh giá tác động của một nút từ nút nguồn khác; tác động từ các nút nguồn đó nếu thay
GIỚI THIỆU
Cùng với sự phát triển và tốc độ nhanh của công nghệ thông tin, các bài toán về đồ thị đã trở thành các lĩnh vực quan trọng và cần thiết cho nhiều lĩnh vực khoa học và ứng dụng Trong những thập kỷ gần đây, người ta đã quan tâm nhiều hơn tới đồ thị và các ứng dụng của nó
Các bài toán liên quan đến đồ thị được mở rộng áp dụng cho nhiều vấn đề trong cuộc sống Bài toán về đồ thị như sự lan truyền dịch bệnh trong môi trường tự nhiên, các sự gợi ý liên quan trong mạng xã hội, quy hoạch các từ đồng nghĩa về các loại thuốc trong sinh học,… Xử lý các bài toán về đồ thị giữa các đỉnh với nhau, giữa các cạnh với nhau thì yếu tố thời gian là yếu tố không thể bỏ qua cho quá trình thực hiện bài toán nào Thời gian thực thi cho các bài toán khác nhau, đồ thị có kích thước từ nhỏ đến lớn cũng ảnh hưởng đến thời gian phân tích cho vấn đề
Giải thuật PPR có hiệu quả cho các bài toán liên quan đến đồ thị Sử dụng giải thuật hợp lý giúp giảm thời gian tính toán Personalized PageRank giúp phân tích được vấn đề nhanh chóng hơn, tiết kiệm thời gian hơn
Trong các bài toán về đồ thị thì sau đây chúng ta sẽ thực hiện phân tích các bài toán cho Luận văn: đánh giá tác động của một nút từ nút nguồn khác; tác động từ các nút nguồn đó nếu thay đổi tốc độ thì có ảnh hưởng thế nào đến nút mình muốn đánh giá? Bài toán theo suy nghĩ ban đầu, nếu chúng ta chạy thực hiện tính toán các nút theo mỗi lần yêu cầu, thay đổi số phần tử nguồn, tốc độ thì sẽ làm tốn rất nhiều thời gian thực hiện Mỗi lần thay đổi sẽ phải tính toán, phân tích lại sẽ gây tốn thời gian nhiều lần
Qua phân tích cho bài toán thì ta thấy giải thuật PPR phù hợp để thực hiện tính toán, giải quyết các vấn đề cho các bài toán trên Personalized PageRank chủ yếu đánh giá tác động vào một nút trong đồ thị Giải thuật PPR sẽ giúp ta đánh giá về giá trị các nút từ các nút nguồn khác nhau Xem xét sự tác động của nút nguồn đến các nút khác Thay đổi chi phí thực hiện trong quá trình tính toán Để giảm bớt thời gian thực hiện thì qua đó Luận văn có đề xuất ra ý kiến để hỗ trợ tính toán được nhanh hơn
Qua các phần nghiên cứu đánh giá thực hiện trong Luận văn thì cho thấy Giải pháp 1 và Giải pháp 2 giải quyết được cho bài toán đánh giá ảnh hưởng của các tập nút nguồn trong đồ thị có hướng với hai nhóm màu xanh và màu đỏ linh động Giải pháp giảm chi phí tính toán khi sử dụng giải thuật Personalized PageRank
Chương này sẽ giới thiệu về các bài toán liên quan đến đồ thị Bài toán phân tích, đánh giá về các nút trong Luận văn Các nhân tố ảnh hưởng hướng đến quá trình phân tích và xử lý vấn đề Bài toán liên quan đến thay đổi các nút, tác động từ các nút nguồn đến nút đánh giá Nêu lên cách thức sử dụng giải thuật phù hợp để giải quyết vấn đề cho các bài toán và kết quả sau khi áp dụng giải thuật Đề xuất hướng thực hiện để giảm thời gian thực thi cho nhiều lần tính toán.
CƠ SỞ LÝ THUYẾT
Giải thuật PageRank
PageRank là thuật toán phân tích các liên kết được dùng trong Google Search để xếp hạng các trang web PageRank là thước đo duy nhất mà Google cung cấp cho Webmaster để đánh giá mức độ phổ biến của trang PageRank sẽ ảnh hưởng tới thứ hạng trên trang kết quả tìm kiếm Thường thì trang có PageRank càng cao thì vị trí của nó trên trang kết quả tìm kiếm càng được ưu tiên.
• Thuật toán này chỉ định giá trị nhất định cho mỗi thành phần của một tập hợp các văn bản liên kết với nhau
• Mục đích để đo tầm quan trọng tương đối của các liên kết trong tập hợp đó
• Áp dụng cho bất kỳ tập hợp văn bản nào có trích dẫn đối ứng và liên kết cụ thể
Hình 1: Hình ảnh phần trăm của giải thuật Pagerank
Thuật toán PageRank đối với một hệ thống liên kết đơn giản, sẽ được hiển thị bằng tỷ lệ phần trăm (%) Trang C có giá trị PageRank cao hơn so với trang E, mặc dù có ít liên kết (links) đến trang C; một link duy nhất dẫn tới C từ một trang quan trọng và chính vì thế mà C có giá trị cao Nếu như một người lướt web bắt đầu từ một trang bất kỳ thì có 85% xác suất chọn một link ngẫu nhiên trên trang mà họ đang xem và 15% họ sẽ chọn chuyển
4 sang một trang web bất kỳ từ toàn bộ hệ thống các liên kết Người dùng sẽ truy cập vào trang E với xác suất 8.1% (Xác suất 15% truy cập tới một trang bất kỳ tương ứng với yếu tố damping là 85%) Nếu không có yếu tố damping, người dùng cuối cùng cũng sẽ kết thúc quá trình lướt web tại trang A, B, hoặc C, và các trang khác sẽ có PageRank bằng 0 Nếu như tính cả yếu tố damping, trang A vẫn liến kết đến tất cả các trang trong hệ thống, mặc dù chỉ có 1 link trỏ đi.[1]
Gọi G là một đồ thị các trang web Đặt G=(V, E) với V=(1,2,…n) là tập n đỉnh của đồ thị (mỗi đỉnh là một trang Web cần tính hạng trang) còn E là tập các cạnh, E = {số siêu liên kết từ trang i tới trang j} Chúng ta giả thiết rằng đồ thị trang Web là liên thông, nghĩa là từ một trang bất kì có thể có đường liên kết tới một trang Web khác trong đồ thị đó
Cho một đồ thị trang Web G như trên Với mỗi trang Web i, ký hiệu di là số liên kết đi ra từ trang Web thứ i
Khi đó hạng trang rj của trang Web j được định nghĩa như sau:
Việc chia cho di cho thấy rằng những trang có liên kết tới trang i sẽ phân phối hạng của chúng cho các trang Web mà chúng liên kết tới Các phương trình này được viết lại dưới dạng ma trận trong đó: r = [r1, r2,…,rn] là vector PageRank, với ri là hạng của trang Web i trong đồ thị trang Web
P là ma trận chuyển n x n với giá trị các phần tử được xác định:
Từ đó công thức PageRank được viết lại: r = rP
Phương trình trên cho thấy vector PageRank r chính là vector riêng của ma trận chuyển P tương ứng với giá trị riêng λ = 1 Trong đại số tuyến tính có một số phương pháp
5 tính vector riêng của ma trận, tuy nhiên do kích thước quá lớn của ma trận đang xét, khi thi hành đã sử dụng phương pháp lặp để tính toán vector PageRank.
Phương pháp: cách thức đơn giản nhất để tính vector riêng của một ma trận có thể được thực hiện thông qua việc lặp phép nhân một vector bất kỳ với ma trận đã cho đến khi nào vector đó hội tụ Đầu tiên, chúng ta sẽ gán cho vector PageRank một giá trị khởi tạo bất kỳ Sau đó, ta thực hiện phép nhân vector này với ma trận đã cho một cách liên tục cho tới khi nó đạt tới điều kiện hội tụ thì dừng lại.
Vector thu được chính là vector PageRank cần tính.
Quy trình tính toán được diễn tả như sau:
3 nếu || rs || < ɛ thì kết thúc (ɛ là số dương rất bé, được gọi là sai số lặp) r là vector PageRank
Giá trị hội tụ của ma trận đối với vòng lặp tùy thuộc vào “khoảng cách” của hai giá trị riêng có giá trị lớn nhất (nói cách khác là hiệu của hai giá trị riêng lớn nhất).
Giải thuật Personalized PageRank
Personalized PageRank (PPR) mô hình hóa mức độ liên quan của các nút trong mạng theo quan điểm của một nút nhất định Giải thuật có các ứng dụng trong tìm kiếm xung quanh có sự liên quan, giới thiệu bạn bè, phát hiện cộng đồng bạn bè, giới thiệu video và các ứng dụng khác Vì PPR tốn kém để tính toán tại thời điểm truy vấn, một số đề xuất tính toán trước nó cho từng người dùng và lưu trữ nó
Các bài toán về đồ thị ở khắp mọi nơi Personalized PageRank có một nhiệm vụ đặc biệt quan trọng để hỗ trợ tìm kiếm và khám phá trong các bộ dữ liệu PPR tính toán khoảng cách giữa các nút truy vấn và các nút khác trong đồ thị Điều này được sử dụng, trong số những người khác để khám phá thực thể, mở rộng truy vấn và đề xuất sản phẩm Cơ sở dữ liệu đồ thị được sử dụng để lưu trữ đồ thị tri thức.
Hình 2: Đồ thị liên kết giữa các trang web
Thật không may việc tính toán chính xác PPR rất tốn kém về mặt thực hiện Trong khi các giải pháp khác nhau đã được đề xuất để tính toán các giá trị PPR với độ chính xác cao Nhiều bài báo cũng đã phân tích trên PPR để xử lý về mặt tính toán, khai khác cơ sở dữ liệu Một phương pháp được nêu ra để xử lý đó là: “Particle filtering” [2]
Một mặt khác nếu sử dụng giải thuật PPR với số lượng cả tỷ biểu đồ, cả tỷ cạnh trên Internet thì có thể sức mạnh xử lý song song của các GPU hỗ trợ việc tính toán Các thuật toán PPR có thể mở rộng hơn do hiện tại chủ yếu được mô tả là các giải pháp CPU đơn luồng có khả năng chống song song hóa Hơn nữa, chúng thường liên quan đến cấu trúc dữ liệu phức tạp không có khả năng thích ứng hiệu quả trên GPU [3].
Giải thuật Personalized PageRank trong Spark
Personalized PageRank là một biến thể của PageRank cung cấp xếp hạng liên quan đến đỉnh “nguồn” được chỉ định trong biểu đồ Về mặt khái niệm, một người khi đột nhiên quyết định ghé thăm một đỉnh khác, sẽ luôn hạ cánh trên đỉnh nguồn được chỉ định Trong
7 thư viện GraphX của Apache Spark, khái niệm này về một trình lướt web tưởng tượng được thực hiện bằng cách thực thi PageRank tối thiểu chỉ trên đỉnh nguồn được chỉ định; PageRanks của tất cả các đỉnh khác được phép giảm xuống 0
Việc triển khai GraphX của PPR bị hạn chế theo một số cách so với việc triển khai trên các hệ thống khác Đầu tiên, chỉ một đỉnh nguồn có thể được chỉ định Nếu việc chỉ định một nhóm đỉnh được cho phép, thì điều này sẽ cho phép, ví dụ, tìm ra người quan trọng nhất đối với một nhóm người, chẳng hạn như cựu sinh viên Harvard năm 1992 Thứ hai, trọng số cho mỗi đỉnh nguồn không thể được chỉ định; trong triển khai GraphX, nó được mã hóa cứng thành 1,0, có nghĩa là xếp hạng trang tối thiểu cho một đỉnh là một trong hai điểm cực trị: 0 cho các đỉnh khác với đỉnh nguồn hoặc 1.0 * resetProb cho đỉnh nguồn Đây không phải là một hạn chế lớn ngay bây giờ, khi GraphX chỉ cho phép chỉ định một đỉnh nguồn duy nhất, nhưng khi GraphX tăng khả năng trong tương lai để chỉ định nhiều đỉnh nguồn, thì việc có thể chỉ định trọng số độc lập cho mỗi đỉnh nguồn sẽ cho phép người ta có thể khái niệm chỉ định một số loại mối quan hệ hoặc tầm quan trọng đối với phần còn lại của các đỉnh trong tập hợp các đỉnh nguồn.[4]
BÀI TOÁN PHÂN TÍCH ẢNH HƯỞNG TRÊN ĐỒ THỊ
Giới thiệu phân tích bài toán và giải thuật Personalized PageRank
Trong toán học, và cụ thể hơn trong lý thuyết đồ thị, đồ thị có hướng (tiếng Anh: directed graph hay digraph) là một đồ thị được tạo thành từ tập hợp các đỉnh được nối bởi các cạnh, trong đó các cạnh có hướng liên kết với chúng Đồ thị có hướng là một cặp có thứ tự G = (V, E) trong đó:
V là một tập hợp có các phần tử được gọi là đỉnh (vertices), nút (nodes), hoặc điểm (points);
E là một tập hợp các cạnh được nối giữa 2 nút, được gọi là mũi tên (arrows), cạnh có hướng (directed edges),
Hình 3: Hình mẫu về đồ thị có hướng
Bài toán đang thực hiện có phân tích các tác động giữa các nút trong đồ thị có hướng Ảnh hưởng giá trị của các trong đồ thị theo tính lan truyền dần trôi xa ra hơn Khi mình xác định được nút gốc để thực hiện thì qua các lần lan truyền sẽ gây ảnh hưởng đến các nút con của nút gốc (nút được mũi tên chỉ đến) Khi quá trình thực hiện thì sẽ tạo thành một mạng lưới ảnh hưởng giữa các nút với nhau Nút gốc đó ảnh hưởng đến các nút còn lại thông qua các
9 liên kết (qua các cạnh) trên đồ thị G Bắt đầu lan truyền từ nút gốc đến các nút khác nên nút nào gần nhất với nút gốc sẽ bị ảnh hưởng lớn hơn các nút còn lại Như ở đồ thị hình 3 ở trên thì nếu lấy nút 0 là nút gốc thì nút 2, nút 4, nút 5 sẽ bị ảnh hưởng lớn hơn so với nút
3 qua lần đầu lan truyền Qua các lần ảnh hưởng thì giá trị của từng nút sẽ bị thay đổi, có thể sẽ tăng lên qua từng lần tích lũy, cũng có thể giảm xuống để phân chia đến các nút con khác trong quá trình thực hiện phân tích
Giải thuật Personalized PageRank (PPR) phù hợp cho việc đánh giá ảnh hưởng của một nút (gốc) PPR chú ý tác động vào nút chỉ định, sẽ ghi nhận giá trị cho các nút (gốc) là 1, còn các nút còn lại là 0 Sau đó thực hiện giải thuật để bắt đầu lan truyền mở rộng đi các nút khác trong đồ thị Qua các lần chạy giải thuật thì lượng nút bị ảnh hưởng sẽ gia tăng lớn hơn trong đồ thị từ nút gốc ban đầu
Trong đồ thị sẽ có nhiều mối liên kết giữa các nút với nhau, nếu có tập hợp số mốt số nút gốc ban đầu thì sẽ ảnh hưởng thế nào? Như ở một nút gốc thì sẽ gây ảnh hưởng đến các nút con của nó, nhiều nút gốc cũng sẽ làm ảnh hưởng đến tập hợp các nút con mở rộng nhanh hơn Nhiều nút gốc ban đầu, qua các lần lan truyền thì quy mô lan truyền sẽ nhiều hơn nhiều Tập nhiều nút sẽ bị ảnh hưởng với nhau qua các lần mở rộng lan truyền Ngoài phân tích trên một nút thì giải thuật PPR cũng có phân tích trên tập nhiều nút (gốc) ban đầu Personalized PageRank thực hiện song song cho tập hợp nhiều nút gốc cho quá trình lan truyền Nên PPR vẫn có thể giải quyết được cho bài toán này.
Bài toán phân tích ảnh hưởng trên đồ thị
Bài toán thực hiện chính sẽ đánh giá ảnh hưởng của nhiều nút (gốc) đến các nút khác trong đồ thị Như mô tả trên thì qua các lần thực hiện, các nút con sẽ bị thay đổi giá trị do các nút gốc gây ra, sẽ ảnh hưởng đến tình hình lan tỏa, phân bố các nút ở các lần lặp khác nhau
Dữ liệu đầu vào cho bài toán:
Tập hợp các nút gốc V R (xanh) và V R (đỏ):
Độ sai lệch ảnh hưởng ε (rất nhỏ)
Người sử dụng chọn hai tập nút gốc con xanh và đỏ để xem xét sự ảnh hưởng đến các nút khác:
- V X : tập nút thuộc G chịu ảnh hưởng từ VSR(xanh) lớn hơn từ VSR(đỏ) (sai lệch lớn hơn 𝜀);
- V Đ : tập nút thuộc G chịu ảnh hưởng từ VSR(đỏ) lớn hơn từ VSR(xanh) (sai lệch lớn hơn 𝜀);
- V Interfering là tập các nút thuộc G chịu ảnh ảnh hưởng từ VSR(xanh) và
VSR(đỏ) gần như nhau (sai lệch nhỏ hơn 𝜀)
Với các nhu cầu phân tích về các ảnh hưởng từ nút gốc đến các nút khác trong đồ thị
G, được thực hiện trong nhiều kịch bản khác nhau để có cái nhìn đánh giá về sự lan truyền qua các lần chạy giải thuật Để đánh giá qua các lần chạy, thì mỗi kịch bản sẽ được người dùng chọn các tập hợp
VSR(xanh) và VSR(đỏ) khác nhau để phân tích, đánh giá
Giải thuật PPR được chọn để đánh giá ảnh hưởng từ một tập nút gốc đến từng nút thuộc
G nhưng vẫn có một số vấn đề cần giải quyết:
Tập hợp các nút chịu ảnh hưởng VInterfering sẽ thay đổi từng bước ra sao theo thời gian? Chi phí thay đổi thế nào?
Tốc độ gây ảnh hưởng của nhóm nút gốc VSR(xanh) và VSR(đỏ) có thể khác nhau;
Giảm chi phí tính toán khi sử dụng PPR;
Thời gian tính toán giải thuật PPR có đủ nhỏ để đáp ứng yêu cầu phân tích trực tiếp người sử dụng?
Giải pháp 1
Giải pháp tính toán, phân tính ảnh hưởng từ nút gốc đến các nút khác trong đồ thị Giải pháp đánh giá lặp Trong giải pháp này sử dụng giải thuật Personalized PageRank để đánh giá sự lan truyền các nút trong đồ thị PPR được hiện thực trong Spark để hỗ trợ người dùng quá trình phân tích Giải pháp này lựa chọn các tập nút gốc thực hiện qua PPR nhiều lần để đánh giá các nút trong đồ thị
Sơ đồ thực hiện giải pháp 1:
Hình 4: Sơ đồ thực hiện giải pháp 1 Trong sơ đồ thực hiện cho giải pháp gồm 6 bước:
Bước (1): Dữ liệu đầu vào cho giải pháp này là đồ thị G = (V, E) là đồ thị có hướng Trong đồ thị chỉ rõ hướng lan truyền từ nút này đến nút khác
Bước (2): Thực hiện lựa chọn hai tập nút gốc xanh và đỏ ban đầu gồm VR(xanh) và VR(đỏ) Lựa chọn các tập nút gốc để chuẩn bị có quá trình phân tích thích hợp Hai tập nút gốc nên thõa mản điều kiện để thuận lợi cho quá trình phân tích Không được sự trùng nút ở hai tập nút này Ở mỗi tập nút nên có các nút riêng của mình để không bị nhầm lẫn cho sự lựa chọn phân tích
Bước (3): Sau khi lựa chọn được hai tập nút gốc ở bước trên thì đến bước này, ta lựa chọn lại nút để tiến hành đánh giá gồm VSR(xanh) và VSR(đỏ) Chọn ra các nút từ hai tập trên
12 làm dữ liệu đầu vào cho việc chạy giải thuật Bước này chọn nút cho phù hợp để chuẩn bị cho chạy giải thuật đánh giá trình lan truyền từ các nút lựa chọn này đến các nút con khác Bước này quyết định sẽ đánh giá các tập nút nào lan truyền đi đến khác nút con khác
Bước (4): Bước này thực hiện chạy giải thuật PPR trong Spark để đưa ra các dữ liệu cho việc phân tích Ở bước này, từ các tập nút gốc được lựa chọn ra để phân tích, sẽ chạy riêng giải thuật PPR cho các tập nút màu xanh VSR(xanh) để xem qua các lần lặp thì ảnh hưởng nó mở rộng như thế nào Tương tự cũng thực hiện cho tập nút gốc màu đỏ VSR(đỏ) Các tập nút gốc sẽ làm tham số đầu vào cho giải thuật Thực hiện ở bước này, ta có thể điều chỉnh số lần lặp để quan sát qua từng lần lặp thì lượng lan truyền đó đi như thế nào Giá trị của các nút con liên quan có tăng lên do chịu ảnh hưởng từ các tập nút gốc Chạy giải thuật PPR thì cũng có thể điều chỉnh các thông số phù hợp cho tính toán Khi chạy giải thuật thì ta cũng xem được thời gian thực hiện giải thuật cho từng bước, từng lần lặp của các nút khác nhau Dữ liệu sau khi chạy giải thuật cần được đánh giá, phân tích để đưa ra các kết quả cho phù hợp
Bước (5): Từ các dữ liệu xuất sau khi chạy giải thuật để tiến hành phân tính, đánh giá bài toán Phân tích các nhu cần thực hiện trên các dữ liệu đạt được Đánh giá về thời gian thực hiện cho từng tập dữ liệu Thời gian lan truyền của các nút gốc đến nút con liên quan Phân tích sự biến đổi của các nút con từ nút màu xanh thành nút đỏ và ngược lại Xem sự ảnh hưởng từ các nút gốc đến nút con nào lớn hơn Khai thác các thông tin có được để đưa ra các kết luận ở bước sau
Bước (6): Tổng hợp các kết quả phân tích, đánh giá để hiển thị cho người dùng Ở bước này sẽ biết được các thông tin sau khi phân tích ở bước 5 Để nắm rõ hơn các sự ảnh hưởng lan truyền trong đồ thị đang hiện thực Bước này nếu kết quả chưa được như mong muốn hoặc muốn phải tích thêm thì phải thực hiện hiện lại từ bước 3 Lựa chọn các nút gốc cho phù hợp thực hiện lại giải thuật Quá trình này lặp đi, lặp lại để có nhiều kết quả mong muốn
13 Đánh giá khi thực hiện theo giải pháp này: Ưu điểm: Số lượng nút ban đầu lớn, lựa chọn nhiều nút để thực hiện
Nhược điểm: Mỗi lần thay đổi tập nút gốc phải chạy lại tập dữ liệu, gây tốn thời gian thực hiện.
TRIỂN KHAI VÀ ĐÁNH GIÁ
Môi trường thực nghiệm sử dụng Spark
Bài toán thực hiện cho Luận văn được đo trên máy tính cá nhân Xu hướng đang thực hiện là có thể thao tác đo đạc ở môi trường doanh nghiệp Có thể thực hiện với bộ dữ liệu nhỏ và vừa một các nhanh chóng để xem kết quả của quá trình tính toán Spark được cấu hình đơn luồng, thực hiện trên một máy tính Apache Spark có hỗ trợ hiện thực giải thuật PPR
Sử dụng Spark để thực hiện tính toán, đánh giá cho việc phân tích ảnh hưởng của trong đồ thị là thích hợp
Thực hiện chạy các lệnh Spark với phiên bản 3.3.0 trên command line
Giải thuật PPR được hiện thực trong các hàm của Spark:[5] staticPersonalizedPageRank(long src, int numIter, double resetProb) staticParallelPersonalizedPageRank(long[] sources, int numIter, double resetProb)
Các thông số đầu vào cho các hàm trên:
+ src: nút gốc ban đầu thực hiện chạy giải thuật
+ sources: tập nút gốc ban đầu thực hiện chạy giải thuật
+ numIter: số lần lặp cho tính toán
+ resetProb: giá trị reset thay đổi đồ thị
Bộ dữ liệu thực hiện
Trong đo đạc thực hiện cho luận văn này, dựa trên 2 bộ dữ liệu:
+ Bộ dữ liệu 1: Bộ dữ liệu của mạng xã hội trong loài cá heo [6]
- Dữ liệu gồm: 62 đỉnh và 159 cạnh
+ Bộ dữ liệu 2: Mạng lưới email từ một tổ chức nghiên cứu lớn của Châu Âu [7]
- Dữ liệu gồm: 1005 đỉnh và 25571 cạnh