1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu hiệu năng giải thuật personalized pagerank

54 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 54
Dung lượng 2,49 MB

Nội dung

I H C QU C GIA TP HCM TR NGă I H C BÁCH KHOA NGUY N TU N MINH NGHIÊN C U HI UăN NGăGI I THU T PERSONALIZED PAGERANK Chuyên ngành: Khoa h c Máy tính Mã s : 8.48.01.01 LU N V N TH CăS TP H CHÍ MINH, tháng n m 2022 CỌNG TRÌNH TR Cán b h NGă C HOÀN THÀNH T I: I H C BÁCH KHOA ậ HQGă-HCM ng d n khoa h c: PGS TS Tho i Nam Cán b ch m nh n xét 1: TS Lê Thanh Vân Cán b ch m nh n xét 2: PGS TS.Nguy n V n Sinh Lu n v n th c s đ c b o v t i Tr ngày 26 tháng 07 n m 2022 ng i h c Bách Khoa, HQG Tp HCM Thành ph n H i đ ng đánh giá lu n v n th c s g m: PGS.TS Tr n V n Hoài …………… - Ch t ch H i đ ng TS Tr n Tu n Anh………………… - Th kỦ TS Lê Thanh Vân………………… - Ph n bi n PGS.TS Nguy n V n Sinh………… - Ph n bi n TS D ng Ng c Hi u……………… - y viên Xác nh n c a Ch t ch H i đ ng đánh giá LV Tr ngành sau lu n v n đư đ c s a ch a (n u có) CH T CH H Iă NG TR ng Khoa qu n lý chuyên NG KHOA KHOA H C VÀ K THU T MÁY TÍNH TR I H C QU C GIA TP.HCM NGă IăH CăBỄCHăKHOA C NGăHọAăXÃăH I CH ăNGH AăVI TăNAM căl pă- T ădoă- H nhăphúc NHI M V LU NăV NăTH CăS H tên h c viên : Nguy n Tu n Minh MSHV: 1970125 Ngày, tháng, n m sinh : 12/07/1996 N i sinh : H Chí Minh Chuyên ngành : Khoa H c Máy Tính Mư s : 8480101 I TểNă TÀI : Nghiên c u hi uăn ngăgi i thu t Personalized PageRank / Studying Performance of Personalized PageRank Algorithm II NHI M V VÀ N I DUNG : Th c hi n nghiên c u đánh giá gi i thu t Personalized PageRank đ th có h ng III NGÀY GIAO NHI M V : 06/09/2021 IV NGÀY HOÀN THÀNH NHI M V : 06/06/2022 V CÁN B H NG D N : PGS.TS THO I NAM Tp HCM, ngày tháng n m 2022 CỄNăB ăH NGăD N CH ăNHI MăB ăMỌNă ÀOăT O (H tên ch kỦ) (H tên ch ký) TR NG KHOA KHOA H C VÀ K THU T MÁY TÍNH (H tên ch ký) i L I C Mă N Tôi xin trân tr ng g i l i bi t n chân thành đ n th y PGS.TS Tho i Nam, ng h ng d n t n tình, ch b o tơi q trình th c hi n đ tài i đư tr c ti p ng th i, th y c ng ng i cho nh ng l i khuyên vô quý giá v c ki n th c chuyên môn c ng nh đ nh h ng phát tri n s nghi p Tôi xin c m n th y v nh ng ki n th c mà th y đư truy n đ t Tôi c ng xin chân thành c m n t t c quý Th y, Cô Khoa đư t n tình giúp đ đ tơi hồn thành đ tài Tôi xin c m n v t t c s giúp đ c a anh, ch b n h c viên h c chung v i tơi đư giúp tơi hồn thành đ tài lu n v n Th c s này, góp Ủ cho tơi q trình th c hi n lu n v n H Chí Minh, ngày 26 tháng 07 n m 2022 Nguy n Tu n Minh ii TÓM T T LU NăV N Trong th p k qua PageRank đư n i lên nh m t th c đo hi u qu v danh ti ng cho c bi u đ web m ng xư h i Tìm kho ng cách gi a nhi u th c th b ng cách s d ng th c đo kho ng cách, đ t khám phá ki n th c T ng t m t nh ng ho t đ ng c t lõi c a khai thác d li u ng t nh v y, vi c tìm ki m s g n g i gi a nhi u nút đ th c ng m t v n đ quan tr ng khai thác d li u đ th Personalized PageRank (PPR) m t nh ng gi i thu t tính tốn cho th c uk l c đo m c đ g n c a nút đ ng nh t đ khai thác d li u bi u đ c ng đư đ c nhi u ng d ng áp d ng Personalized PageRank m t bi n th c a PageRank, m t cách đo l tr ng c a trang web liên k t ụ t ng t m quan ng c t lõi c a PageRank gi i thi u mơ hình b ng u nhiên Gi ng nh PageRank ban đ u, PPR c ng đ hình b c nghiên c c xác đ nh b ng cách s d ng mô c ng u nhiên Tuy nhiên, PPR gi đ nh r ng m t ng i du l ch quay tr l i vô h n (nh y) đ n “các nút h t nhân”, m t t p h p nút c th , thay t t c nút M t nút có m PPR cao có th đ c coi m t nút g n v i h t nhân Nó t o m s liên quan gi a nút nh th c đo kho ng cách, đ t cách đ ng ng n nh t l u l ng t truy n th ng, t c kho ng ng t i đa PPR có th ph n ánh đ c m c u trúc t ng th c a đ th Do nh ng giá tr c a nó, PPR đư đ c áp d ng cho m t lo t ng d ng nh truy xu t thông tin, đ xu t nh n bi t ng c nh, phân tích m ng xư h i, ngơn ng h c tính tốn, x lỦ hình nh, phát hi n d th ng sinh h c Vi c s d ng gi i thu t PPR s đ c áp d ng r ng rưi h n cho nhi u tốn khác Qua ph n đ tài th c hi n nghiên c u s d ng Personalized PageRank Apache Spark đ đánh giá, phân tích tốn v đ th S lan truy n, nh h ng gi a nút đ th có h iii ng ABSTRACT Over the past decade PageRank has emerged as an effective measure of reputation for both web graphs and social networks Finding distance between multiple entities using distance measures, similarity is one of the core operations of data mining and knowledge discovery Likewise, finding the closeness between multiple nodes in a graph is also an important problem in graph data mining Personalized PageRank (PPR) is one of the most well-studied computational algorithms for the measure of node proximity for graph data mining and has also been adopted by many applications Personalized PageRank is a variation of PageRank, which is a measure of the importance of linking sites The core idea of PageRank is to introduce the random walk model Like the original PageRank, the PPR is also determined using a random walk model However, PPR assumes that a person travels back infinitely (jumps) to "nuclear nodes", which are a specific set of nodes, instead of all nodes A node with a high PPR score can be considered a node close to the nuclei It generates a correlation score between nodes as traditional distance measures, similarity i.e shortest path distance and maximum traffic PPR can reflect the overall structural features of the graph Because of its merits, PPR has been applied to a wide range of applications such as information retrieval, context-aware recommendation, social network analysis, computational linguistics, image processing, detection anomalies and biology The use of PPR algorithm will be more widely applied to many other problems Thereby in this topic, we conduct research on using Personalized PageRank in Apache Spark to evaluate and analyze graph problems The propagation, influence between nodes in a directed graph iv L IăCAMă OAN Tôi cam đoan r ng, cơng vi c trình bày lu n v n tơi th c hi n ch a có ph n n i dung c a lu n v n đ tr c n p đ l y m t b ng c p tr ng ho c ng khác N u không nh đư nêu trên, xin hoàn toàn ch u trách nhi m v đ tài c a Ng i cam đoan Nguy n Tu n Minh v M CL C NHI M V LU NăV NăTH CăS i L I C Mă N ii TÓM T T LU NăV N iii ABSTRACT iv L IăCAMă OAN v CH NGă1:ăGI I THI U CH NGă2:ăC ăS LÝ THUY T 2.1 Gi i thu t PageRank 2.2 Gi i thu t Personalized PageRank 2.3 Gi i thu t Personalized PageRank Spark 2.4 Th c hi n cho toán th c ti n CH NGă3:ăBÀIăTOỄNăPHỂNăTệCHă NHăH NGăTRểNă TH 3.1 Gi i thi u phân tích tốn gi i thu t Personalized PageRank 3.2 Bài tốn phân tích nh h ng đ th 3.3 Gi i pháp 11 3.4 Gi i pháp 13 CH NG 4: TRI NăKHAIăVÀă ỄNHăGIỄ 16 4.1 Môi tr ng th c nghi m s d ng Spark 16 4.2 B d li u th c hi n 16 4.4 K ch b n đánh giá 17 4.4.1 K ch b n 1: Th c hi n tính tốn m t nút ngu n 17 4.4.2 K ch b n 2: Th c hi n đo m t t p nút ngu n 26 4.4.3 K ch b n 3: Th c hi n l a ch n hai t p nút ngu n khác (ba nút ngu n VSR (xanh) hai nút ngu n VSR(đ )) 27 vi 4.4.4 K ch b n 4: ánh giá th i gian th c hi n giai đo n 28 4.4.5 K ch b n 5: Th c hi n đánh giá t h p ba nút ngu n VSR(xanh) hai nút ngu n VSR(đ ) 30 CH 4.4.6 K ch b n 6: Th c hi n đánh giá thay đ i t c đ t p nút ngu n VSR(đ ) 37 4.4.7 Phân tích s thay đ i v VInterfering theo t ng b c lan truy n 39 NGă5:ăK T LU NăVÀăH NG M R NG 41 TÀI LI U THAM KH O 43 PH N LÝ L CH TRÍCH NGANG 45 vii CH NGă1:ăGI I THI U Cùng v i s phát tri n t c đ nhanh c a công ngh thông tin, toán v đ th đư tr thành l nh v c quan tr ng c n thi t cho nhi u l nh v c khoa h c ng d ng Trong nh ng th p k g n đây, ng i ta đư quan tâm nhi u h n t i đ th ng d ng c a Các toán liên quan đ n đ th đ c m r ng áp d ng cho nhi u v n đ cu c s ng Bài toán v đ th nh s lan truy n d ch b nh môi tr ng t nhiên, s g i ý liên quan m ng xã h i, quy ho ch t đ ng ngh a v lo i thu c sinh h c,… X lý toán v đ th gi a đ nh v i nhau, gi a c nh v i y u t th i gian y u t khơng th b qua cho q trình th c hi n toán Th i gian th c thi cho toán khác nhau, đ th có kích th c t nh đ n l n c ng nh h ng đ n th i gian phân tích cho v n đ Gi i thu t PPR có hi u qu cho toán liên quan đ n đ th S d ng gi i thu t h p lý giúp gi m th i gian tính tốn Personalized PageRank giúp phân tích đ c v n đ nhanh chóng h n, ti t ki m th i gian h n Trong tốn v đ th sau s th c hi n phân tích toán cho Lu n v n: đánh giá tác đ ng c a m t nút t nút ngu n khác; tác đ ng t nút ngu n n u thay đ i t c đ có nh h ng th đ n nút mu n đánh giá? Bài toán theo suy ngh ban đ u, n u ch y th c hi n tính tốn nút theo m i l n yêu c u, thay đ i s ph n t ngu n, t c đ s làm t n r t nhi u th i gian th c hi n M i l n thay đ i s ph i tính tốn, phân tích l i s gây t n th i gian nhi u l n Qua phân tích cho tốn ta th y gi i thu t PPR phù h p đ th c hi n tính tốn, gi i quy t v n đ cho toán Personalized PageRank ch y u đánh giá tác đ ng vào m t nút đ th Gi i thu t PPR s giúp ta đánh giá v giá tr nút t nút ngu n khác Xem xét s tác đ ng c a nút ngu n đ n nút khác Thay đ i chi phí th c hi n q trình tính tốn gi m b t th i gian th c hi n qua Lu n v n có đ xu t ý ki n đ h tr tính tốn đ c nhanh h n L a ch n nút g c đ th đ phân tích g m n m nút Th c hi n đo l n l p đ xem s thay đ i lan truy n đ n nút ch u nh h ng l n l p th nh t, th hai đư có s thay đ i m t s nút ch u nh h khác t nút g c S thay đ i màu s c cho th y s đ nh đ nh h ng bên l n h n đ quy t c s phân b Hình 21: Phân b t p nút g c xanh đ 31 ng giá tr lan truy n l nl p1 Hình 22: Giá tr c a nút xanh đ l nl p1 l n l p th nh t cho th y hai bên có s b t đ u lan truy n đ n nút S l ng nút ch u nh h ng b i hai bên nút g c cịn ít, g p tác đ ng đ n nút Hình 22: S nút lan truy n xanh đ 32 l nl p2 Hình 23: Giá tr c a nút xanh đ l nl p2 L n l p th hai đư lan truy n thêm m t l p n a, t ng nhi u h n s l h ng nút ch u nh ng b i hai bên, qua c ng s có làm thay đ i màu s c bên có giá tr l n h n tác đ ng đ n S thay đ i m r ng ti p t c th c hi n đ n l n l p phía sau n l n th 5, c ng có s bi n đ i v màu s c c ng nh s nút lan truy n đ n Gia t ng thêm s nút cho bên có giá tr lan truy n l n h n, thay đ i v màu s c c a nút ch u nh h ng Qua nhi u l n l p s l ng nút c ng t ng lên thêm, màu s c c ng s có vài l n bi n đ i m t s nút cho đ n lan truy n có s bi n đ i nh , không thay đ i giá tr màu khác c a nút n a 33 Hình 24: S nút lan truy n xanh đ l nl p5 T ng t th c hi n cho tính tốn b d li u v i đ th l n h n, s l h n: VSR (xanh) = {887, 220, 458} VSR (đ ) = {900, 980} 34 ng nút l n Hình 25: S nút lan truy n xanh đ l n l p c a b d li u Hình 26: Giá tr x p h ng c a nút xanh đ l n l p c a b d li u 35 L n l p đ u tiên đ th 2, s l ng nút l n nên l n đ u tiên đư có nh ng nút liên quan ch u tác đ ng chung t hai bên phía nút ngu n S l nút Tuy nhiên s l nút ch u nh h ng nút ch u tác đ ng t hai bên ng cịn ch a có s giao thoa (delta < = 0.001) ng chung Th c hi n ti p l n ti p theo m i liên k t s nhi u h n, lan xa h n đ n nút S gây nhi u s tác đ ng l n h n, c ng s b t đ u có th gây giao thoa nhi u h n Hình 26: Giá tr x p h ng c a nút xanh đ l n l p th 2, s lan truy n đư đ l n l p c a b d li u c m r ng r t nhi u, t nút ch u nh h ng chung c ng đư t ng lên r t nhi u L n đư có t i g n 710 nút ch u tác đ ng chung t hai bên nút g c lan truy n Và c ng có t i g n 534 nút gây s giao thoa t nh h 36 ng Qua ti p t c th c hi n s nh h ng g n nh lan truy n đ n t t c nút đ th 4.4.6 K ch b n 6: Th c hi năđánhăgiáăthayăđ i t căđ ánh giá th c hi n k ch b n v s u ch nh t c đ t p nút ngu n VSR(đ ) m t bên t p nút g c, đ xem s lan truy n đánh giá th cho nút chung Quá trình thay đ i nh h xem s giao thoa có ti n tri n th qua b i u ch nh t c đ lan truy n ng chung, c l p bên t p nút g c đ s có t c đ nhân đôi so v i bên xanh, s lan truy n nút c ng s nhanh h n Hình 27: Giá tr x p h ng c a nút xanh li u Qua l n l p đ u tiên đ lan truy n có t ng lên nhi u h n so v i t c đ bình th h l n l p đ l nl p2c ab d bên đ nhanh h n nên nút ch u nh h ng đư ng Hi n l n đ u tiên có t i 36 nút ch u nh ng Nh ng v n ch a có nút gây giao thoa l n đ u tiên màu xanh chi m 51 nút, nút màu đ chi m t i 395 nút L đ nhi u h n r t nhi u so v i màu xanh 37 l n s nút ng nút nh h ng t màu L n l p th hai s l ng nút xanh nút đ đư gia t ng nhi u h n, bên nút đ đư l n l p th nên s nút lan r t xa l n hai nút xanh 284 nút, nút đ 681 nút Nh ng trình lan xa giá tr nút nh h n nh h ng t bên xanh s l n h n làm trình nút thay đ i khác qua m i l n l p Làm s l thoa c ng gia t ng h n, t i h n 530 nút ch u nh h ng nút giao ng chung g n b ng t hai bên đ xanh n l n l p th n m nút bên xanh đư l n h n, giá tr truy n l n h n, làm nút đ c truy n giá tr đ n cao h n nh h màu xanh l n h n, thay đ i m t s l ng nghiên v nút bên màu xanh S l ng nút t màu đ tr đ n 580 nút, cịn màu đ gi m xu ng 385 nút Và s l c S l ng nút ng màu xanh lên ng nút t o nên giao thoa c ng l n h n, t i h n 850 nút ch u chung gi a hai bên nút g c xanh đ Qua l n l p ti p t c xu h ng nút màu xanh ngày cao h n so v i màu đ Hình 28: Giá tr x p h ng c a nút xanh l n l p đ 38 l n l p 10 c a b d li u l n l p nút ngày nhi u S tác đ ng nhanh chóng t hai nút g c nh h ng đ n nhi u nút S nh h m r ng nhanh chóng, có nhi u s nh h ng đ y nhanh s làm ph m vi xem xét ng c a nút t m t bên ngu n ch y nhanh h n, lan r ng xa h n Quá trình đo đ c nh h ng kích th c c a đ th nhi u th to trình ch y gi i thu t, tính tốn c ng s t n nhi u th i gian Th i gian đ đo gi i thu t, th i gian đ s p x p tính tốn nút nh h ng Phân tích k t qu mong mu n cho đ th l n 4.4.7 Phân tích s thayăđ i v VInterfering theo t ngăb c lan truy n Phân tích mu n bi t q trình thay đ i c a c a nút giao thoa, nút ch u nh h g n nh ng l n l p ph i có giá tr c a t ng l n ch y gi i thu t Mu n th c hi n gi i pháp v n ph i l u tr l i k t qu đ ph c v cho phân tích sau c ng ph i l u tr l i b c ch y PPR đ đánh giá m c nh h gi i pháp ng Gây t n thêm b nh đ l u tr d li u Gi i pháp c ng xu t t p tin đ l u tr cho t ng h p phân tích ti p t c Th c hi n tồn b gi i pháp t n b nh s h n so v i l gi i pháp Nh ng cách th c th c hi n ng l u tr gi i pháp s cho tính tốn tr c h t, c n đánh giá nút nào, t p h p trích l i d li u c a nút đ ti n hành phân tích Th c hi n tính tốn Personalized PageRank Spark c a t ng nút đ th Sau s d ng công c Microsoft Excel đ t ng h p s li u tính tốn Trong t ng lai có th phát tri n cơng c giao di n đ ho có h th ng l u tr ph c v vi c phân tích nh h ng có t ng tác v i ng nút Chúng ta s tính tốn tr i dùng T s có nhi u cách t ng h p khác c cho nút đ th Sau c n th c hi n nút s đem đ phân tích cho bi t đ c ng xem có s giao thoa hay không v i nút khác c nút liên quan đ n ph n tính tốn ch tính m t nút so sánh v i m t nút, d a ph m v x p h ng t đ n nên n u mu n th c hi n cho hai bên mà m i bên có s l ng nút khác M i bên d a 39 s li u th ng kê t l n đo lúc ban đ u Chúng ta có giá tr x p h ng c a t ng nút đ th Sau ta th c hi n trung bình c ng giá tr gi a nút cho m i bên riêng bi t đ ph m vi giá tr c a x p h ng t ng nút s t đ n K ti p th c hi n so sánh gi a bên v i đ bi t ph m vi nh h ng, k t qu c a nút liên quan s th T ng k t phân tích s d ng Personalized PageRank c a Apache Spark Qua trình phân tích, tính tốn v i nút đ th thông qua hàm hi n th c Personalized PageRank Apache Spark, th y đ c s hi u qu s d ng hàm áp d ng cho tốn Tính tốn c th t ng nút, xem đ qua t ng l n l p i u ch nh đ c ph m vi nh h c s l n l p, xác xu t mà mu n tính tốn Chúng ta có th đo đ c m t l n cho nút mà s th c hi n phân tích So sánh đ tùy theo s l ng nút m i bên Bi t đ v i l n đo giá tr tr Ti t ki m đ ng c nh h c hai bên v i ng chung đ n ph m vi c a đ th c c th i gian tính tốn, không c n ph i đo nhi u l n, l p l i s t n nhi u chi phí Có th so sánh giá tr , ph m v tác đ ng c a nhi u nút tùy theo ý mu n Xét v m t kinh t , m t m ng l có ph m vi nh h i gi a công ty v i nhau, m i công ty s ng khác N u công ty A nh h ng l n đ công ty khác, liên quan đ n nhi u khách hàng khác Qua bên n u có đ i th c nh tranh c ng có t t v y Thì c ng d a tốn có th phân tích đ nh h c công ty b ng m nh, nh b i cơng ty ngu n T đ a chi n l phù h p v i tình hình th tr c ng s th y đ ng c cho ng Ngoài tốn c ng cịn theo chi u l i nhu n, v y c n u cơng ty ngu n đ đ i giá tr c a V y cơng ty s có đ c l i nhu n cơng ty c ng s có thay c l i nhu n t t, s đ s tác đ ng cao h n v bên 40 c chung l i nhu n ho c CH NGă5:ăK T LU NăVÀăH NG M R NG Bài tốn tính tốn v nút đ th , xem xét nút ngu n nút liên quan đ n Th c hi n tính tốn đ lan truy n đ n nút khác Các yêu c u đ ng v ch n nút ngu n th c hi n, th y đ đ c cách thay đ i t c đ nh h Các yêu c u đ Spark cho ng đ c cách lan truy n đ n ngu n khác th C ng nh xem ng c a đ n giá tr đ th thay đ i th c gi i thu t PPR Spark có th th c hi n Gi i thu t PPR i dùng thay đ i đ c thông s cho u ch nh cho phù h p đ gi i c yêu c u c a toán Qua phân tích d li u d a gi i thu t PPR, th y đ c cách v n d ng gi i thu t cho phù h p Phân tích v s lan truy n c a nút đ th t m t nút ngu n S lan truy n đ n h i t theo qua l n l p nh Ki m tra đ c s l n l p đ xem s lan truy n, tác đ ng c a ngu n đ n nút khác So sánh l n th c hi n th khác v i t c đ nhanh h n s có nút nh h ng, th c hi n có nút ng s m h n, ch u tác đ ng chung t ngu n Qua trình phân tích tìm hi u ch y gi i thu t cho tốn c ng có nh ng u m khuy t m cho trình th c hi n uăđi m: - ánh giá đ c nút ch u nh h ng b i nút ngu n - ánh giá đ c ph m vi nh h ng c a nút ngu n qua l n l p - i u ch nh s l ng nút ngu n ban đ u, không ch y l i gi i thu t nên gi m s l nl p - So sánh đ c s tác đ ng đ n nút khác nh th Khuy tăđi m: - T ng l ng l u tr đ ph c v cho tính tốn 41 H ng phát tri n Gi i thu t PPR đ c áp d ng r ng rãi cho nhi u toán khác Có th áp d ng gi i thu t có tốn v lan truy n d ch b nh, phân tích tình hình kinh t th ng kê g i ý s n ph m cho ng thu t có nhi u h khu v c, i dùng, g i ý b n bè m ng xã h i,… Gi i ng đ phát tri n phân tích đ t o thêm s thú v , mang l i l i ích cho nhi u toán khác Qua áp d ng gi i thu t c ng có th xu h ng xây d ng công c t nh n bi t m i quan h , m i quan tâm đ n ng ý nhi u cho ng ph m đ i dùng Tìm nh h ng tác v i ng i s d ng đ t ng t ng, s liên quan đ n ng i, ng tác t t, g i i dùng đ cho s n c phát tri n t t h n Bài tốn c ng có th phát tri n đ giúp t i u toán khác Thay đ i cách th c th c hi n đ xây d ng toán t i u Bài toán c n ch y tr c gi i thu t cho nút đ có d li u qua trình phân tích ti p theo N u có nhi u t h p nút ngu n ví d ngu n A, ngu n B n u c đ nh ngu n A nên ch n nh ng ngu n B th t i u h n, c ng nh giúp thay đ i th c hi n cho toán khác 42 TÀI LI U THAM KH O [1] “PageRank,” Internet: https://vi.wikipedia.org/wiki/PageRank, Dec.17, 2020 [2] D Gallo et al., “Personalized Page Rank on Knowledge Graphs: Particle Filtering is all you need!,” in Proceedings of the 22nd International Conference on Extending Database Technology (EDBT), 2020 [3] J Shi et al., “Realtime Top-k Personalized PageRank over Large Graphs on GPUs,” in Proceedings of the VLDB Endowment, vol.13, pp.15-28, Sep 2019 [4] M S Malak and R East, “Built-in algorithms” in Spark GraphX in Action Minning, 2016, pp 90-109 [5] “GraphOps,” Internet: https://spark.apache.org/docs/3.3.0/api/java/org/apache/spark/graphx/GraphOps html, Jun 13, 2022 [6] “DOLPHINS.” Internet: https://networkrepository.com/soc-dolphins.php, Jun 13, 2022 [7] “Email-Eu-core network.” Internet: https://snap.stanford.edu/data/email-Eucore.html, Jun 13, 2022 [8] “FAST-PPR: Personalized PageRank Estimation for Large Graphs.” Internet: https://cs.stanford.edu/people/plofgren/Fast-PPR_KDD_Talk.pdf, Jun 13, 2022 [9] W Xie et al., “Edge-Weighted Personalized PageRank: Breaking A DecadeOld Performance Barrier,” in KDD '15: Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2015, pp 1325–1334 Doi: https://doi.org/10.1145/2783258.2783278 [10] Roshni and Dr Unnikrishnan, “A Review on Pagerank and Personalized Pagerank Algorithms,” International Research Journal of Engineering and Technology (IRJET) , vol 8, pp 253-257, Apr 2021 43 [11] “From Random Walks to Personalized PageRank.” Internet: https://www.rbloggers.com/2014/04/from-random-walks-to-personalized-pagerank, Jun 13, 2022 [12] S Park et al., “A Survey on Personalized PageRank Computation Algorithms,” IEEE Access, vol.7, pp 163049-163062, Nov 2019 44 PH N LÝ L CH TRÍCH NGANG H tên: Nguy n Tu n Minh Ngày, tháng, n m sinh: 12/07/1996 N i sinh: H Chí Minh a ch liên l c: D5/48 p 4, xư H ng Long, huy n Bình Chánh, Thành ph H Chí Minh QUỄăTRỊNHă ÀOăT O - Tr ng i h c Bách Khoa TP HCM – Sinh viên khoa KH & KT Máy tính (khóa - 2014 – 2019) Tr ng i h c Bách Khoa TP HCM – H c viên cao h c Khoa h c Máy tính (khóa 2019 – nay) Q TRÌNH CƠNG TÁC - T 12/2018 đ n 03/2020: làm vi c t i Công Ty TNHH Axon Active Vi t Nam Ngh nghi p: L p trình viên - T 06/2020 đ n 02/2021: làm vi c t i Công Ty TNHH Citynow Ngh nghi p: L p trình viên - T 04/2021 đ n nay: làm vi c t i T ng Công ty Gi i pháp Doanh nghi p Viettel – Chi nhánh T p đồn Cơng nghi p – Vi n thông Quân đ i Ngh nghi p: K s phát tri n ph n m m 45 ... TÀI : Nghiên c u hi uăn ngăgi i thu t Personalized PageRank / Studying Performance of Personalized PageRank Algorithm II NHI M V VÀ N I DUNG : Th c hi n nghiên c u đánh giá gi i thu t Personalized. .. NGă2:ăC ăS LÝ THUY T 2.1 Gi i thu t PageRank 2.2 Gi i thu t Personalized PageRank 2.3 Gi i thu t Personalized PageRank Spark 2.4 Th c hi n cho toán th... c t p khơng có kh n ng thích ng hi u qu GPU [3] 2.3 Gi i thu t Personalized PageRank Spark Personalized PageRank m t bi n th c a PageRank cung c p x p h ng liên quan đ n đ nh “ngu n” đ c ch đ

Ngày đăng: 13/10/2022, 08:02

HÌNH ẢNH LIÊN QUAN

Hình 1: Hình nh ph nt rm ca g ii th ut Pagerank - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 1 Hình nh ph nt rm ca g ii th ut Pagerank (Trang 12)
Hình 2: th liên kt gia các trang web - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 2 th liên kt gia các trang web (Trang 15)
Hình 3: Hình mu vđ th có h ng - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 3 Hình mu vđ th có h ng (Trang 17)
Hình 4: Sđ th chi ng ii phá p1 - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 4 Sđ th chi ng ii phá p1 (Trang 20)
Hình 5: Sđ th chi ng ii phá p2 Gi i pháp này g m hai gian đo n hi n th c.  - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 5 Sđ th chi ng ii phá p2 Gi i pháp này g m hai gian đo n hi n th c. (Trang 22)
Hình 5: Hình nh nút ng un 46 ti các nút con - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 5 Hình nh nút ng un 46 ti các nút con (Trang 27)
Hình 4: Hình nh nút gc 46 tt pd li 1 - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 4 Hình nh nút gc 46 tt pd li 1 (Trang 27)
Hình nh mơ tv nút gc (46) và các nút con liên qua nc p1 (màu vàng) trong b d  li u 1. Các nút  đc tham kho đn ti p túc tr  t i các nút liên quan cp 2 cho đ  th  - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình nh mơ tv nút gc (46) và các nút con liên qua nc p1 (màu vàng) trong b d li u 1. Các nút đc tham kho đn ti p túc tr t i các nút liên quan cp 2 cho đ th (Trang 28)
Hình 7: Hình nh v nút ng un 55 - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 7 Hình nh v nút ng un 55 (Trang 29)
Hình 8: Hình nh v nút gc 55 và các nút co nc p1 (màu vàng), cp 2(màu - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 8 Hình nh v nút gc 55 và các nút co nc p1 (màu vàng), cp 2(màu (Trang 30)
Hình 9: L n lp th n ht ca g ii thu tD li 1 - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 9 L n lp th n ht ca g ii thu tD li 1 (Trang 31)
Hình 11: L n lp th ba ca g ii thu tD li 1 - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 11 L n lp th ba ca g ii thu tD li 1 (Trang 32)
Hình 10: L n lp th hai ca g ii thu tD li 1 - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 10 L n lp th hai ca g ii thu tD li 1 (Trang 32)
Hình 12: L n lp th nm ca g ii thu tD li 1 - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 12 L n lp th nm ca g ii thu tD li 1 (Trang 33)
Hình 13: L n lp thm ica g ii thu tD li 1 - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 13 L n lp thm ica g ii thu tD li 1 (Trang 34)
Hình 14: Thi gian th ch in ch y g ii thu bd li 1 - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 14 Thi gian th ch in ch y g ii thu bd li 1 (Trang 34)
Hình 15: Thi gian th ch in ch y g ii thu bd li 2 - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 15 Thi gian th ch in ch y g ii thu bd li 2 (Trang 35)
Hình 18: Thi gian th ch in ch y g ii thu tt ng nút bd li 2 - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 18 Thi gian th ch in ch y g ii thu tt ng nút bd li 2 (Trang 38)
Hình 20: Phân b các tp nút gc xanh và đ - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 20 Phân b các tp nút gc xanh và đ (Trang 39)
Hình 21: Phân b các tp nút gc xanh và đl nl p1 - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 21 Phân b các tp nút gc xanh và đl nl p1 (Trang 40)
Hình 22: Giá tr ca các nút xanh và đl nl p1 - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 22 Giá tr ca các nút xanh và đl nl p1 (Trang 41)
Hình 22: S nút lan tru yn xanh và đl nl p2 - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 22 S nút lan tru yn xanh và đl nl p2 (Trang 41)
Hình 23: Giá tr ca các nút xanh và đl nl p2 - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 23 Giá tr ca các nút xanh và đl nl p2 (Trang 42)
Hình 24: S nút lan tru yn xanh và đl nl p5 - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 24 S nút lan tru yn xanh và đl nl p5 (Trang 43)
Hình 26: Giá tr x ph ng ca nút xanh và đl nl p1 ca bd li 2 - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 26 Giá tr x ph ng ca nút xanh và đl nl p1 ca bd li 2 (Trang 44)
Hình 25: S nút lan tru yn xanh và đl nl p1 ca bd li 2 - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 25 S nút lan tru yn xanh và đl nl p1 ca bd li 2 (Trang 44)
Hình 26: Giá tr x ph ng ca nút xanh và đl nl p2c ab d li 2 - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 26 Giá tr x ph ng ca nút xanh và đl nl p2c ab d li 2 (Trang 45)
Hình 27: Giá tr x ph ng ca nút xanh l nl p1 và đl nl p2c ab d li u 2 - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 27 Giá tr x ph ng ca nút xanh l nl p1 và đl nl p2c ab d li u 2 (Trang 46)
Hình 28: Giá tr x ph ng ca nút xanh l nl p5 và đl n lp 10 ca bd li 2 - Nghiên cứu hiệu năng giải thuật personalized pagerank
Hình 28 Giá tr x ph ng ca nút xanh l nl p5 và đl n lp 10 ca bd li 2 (Trang 47)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w