Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 31 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
31
Dung lượng
3,22 MB
Nội dung
Bài thu hoạch môn KHAI PHÁ DỮ LIỆU – Tìm hiểu về GRAPH MINING ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÀI THU HOẠCHMÔN HỌC : KHAI PHÁ DỮ LIỆU ĐỀ TÀI TÌM HIỂU VỀ KHAI PHÁ ĐỒ THỊ GRAPH MINING MỤC LỤC Trang Mục lục 2 Lời mở đầu 3 Chương I: Giới thiệu về khai phá dữ liệu từ đồ thị - Graph mining 4 1) Các khái niệm & định nghĩa 2) Khai thác dữ liệu đồ thị - đồ thị phổ biến mẫu 3) Một số thuật toán trong khai thác đồ thị 4 6 8 Chương II: Các thuật toán về khai thác đồ thị 9 1) Thuật toán Apriori 2) Thuật toán tăng trưởng mẫu – Pattern growth 9 10 1 Lê Ngọc Hiếu – CH1101012 – K6UIT – occbuu@gmail.com Học viên thực hiện: Lê Ngọc Hiếu MSHV: CH1101012 Lớp : CH K6 - UIT GVHD:PGS.TS. Đỗ Phúc Bài thu hoạch môn KHAI PHÁ DỮ LIỆU – Tìm hiểu về GRAPH MINING 3) Đặc điểm của các thuật toán khai thác đồ thị 14 Chương III: Phân lớp đồ thị 20 1) Phân lớp dựa trên cấu trúc . 2) Phân lớp dựa trên mẫu (pattern) 3) Phân lớp dựa vào cây quyết định 4) Phân lớp dựa trên nhân (Kernel) của đồ thị 20 20 21 23 Chương IV: Nén đồ thị 24 Chương V: Ứng dụng khai thác đồ thị quản lý độ tin cây trên mạng internet 25 1) Một số ký hiệu . 2) Số liệu liên quan. 3) Cấu trúc cluster (cụm) toàn cầu 4) Cấu trúc cluster (cụm) cục bộ 5) Topology 25 25 30 35 Chương VI: Kết luận 37 Tài liệu tham khảo 38 LỜI MỞ ĐẦU Khai thác dữ liệu đồ thị là mảng đề tài không cũ, nhưng khá mới mẻ ở Việt Nam. Thông qua là bài thu hoạch cuối kỳ của môn học Khai phá dữ liệu & kho Dữ liệu, giúp em hiểu hơn về các ứng dụng của khai phá dữ liệu đồ thị, mục tiêu, mục đích & kết quả của ứng dụng khai phá dữ liệu đồ thị trong cuộc sống, là cơ sở vững chắc cho việc nghiên cứu & phát triển về sau trong quá trình học tập tại trường. Để hòan thành bài thu hoạch này, em xin chân thành cảm ơn thầy PGS.TS. Đỗ Phúc, người đã truyền cảm hứng cho em, thầy là người chỉ dẫn tận tình, cung cấp thông tin, tư liệu cũng như những bài giảng có giá trị để sản phẩm này hoàn thành ở mức bước đầu nghiên cứu. Đây là đề tài không mới nhưng không cũ, nhưng với thời lượng cũng như việc đầu tư nghiên cứu chưa tương ứng, nên đây chỉ mang tính chất một bài tiểu luận môn học, chỉ tìm hiểu ở mức độ khái quát vấn đề, phân tích và chưa đi sâu mổ xẻ các vấn đề một cách triệt để tương xứng với một bài nghiên cứu khoa học. Em rất mong sự thông cảm & chia sẻ của thầy. Thành phố Hồ Chí Minh, Tháng 11 Năm 2012.CHƯƠNG I: GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU ĐỒ THỊ - GRAPH MINING I.1) CÁC KHÁI NIỆM & ĐỊNH NGHĨA 2 Lê Ngọc Hiếu – CH1101012 – K6UIT – occbuu@gmail.com Bài thu hoạch môn KHAI PHÁ DỮ LIỆU – Tìm hiểu về GRAPH MINING 1. Tại sao phải khai phá dữ liệu đồ thị? - Đồ thị dể dàng tìm thấy ở khắp mọi nơi trong cuộc sống hàng ngày của chúng ta như: a. Hệ thống mạng internet (Co-expression Network) b. Mạng xã hội (Social network) c. Quy trình của một chương trình (Program flow) d. Các hợp chất hóa học ( Chemical compound) e. Cấu trúc của Protein (Protein structure) - Một dữ liệu lớn ngày nay trên các hệ thống mạng đều có thể biểu diễn dưới dạng các đồ thị & mối quan hệ của chúng theo: a. Liên kết, kết nối vật lý b. Kết nối giữa các mạng trong lớp mạng c. Mối quan hệ trong mạng xã hội d. Siêu lien kết giữa các trang web e. Các tương tác phức tạp giữa các thực thể… - Những đồ thị trên chứa đựng những thong tin giá trị cho việc ứng dụng vào hệ thống mạng như a. Những phát hiện từ cộng đồng, những điểm chung b. Phân lớp c. Những hệ thống được đưa ra theo ưu tiên nào đó d. Tìm kiếm trên mạng e. P2P (điểm tới điểm) tìm kiếm & lấy dữ liệu f. Tin cậy & uy tín… - Để đưa những dữ liệu trên vào dưới dạng đồ thị, ta cần phải: a. Định nghĩa các ma trận mà mô tả cấu trúc tổng thể của đồ thị b. Tìm các cấu trúc có tính đặc trưng cộng đồng của mạng lưới c. Định nghĩa các ma trận mà nó mô tả các mẫu đặc trưng của các giao tiếp bên trong đồ thị đó d. Phát triển & ứng dụng những thuật toán hiệu quả nhất để khai thác dữ liệu trong hệ thống mạng đó e. Hiểu rõ mô hình của việc lấy ra (thừa hưởng) từ các đồ thị đó. - Nhìn chung, đồ thị có tính bao quát hơn từng đối tượng, tuần tự, cây, mạng nói chung. Đồ thị giải quyết được nhiều vấn đề có độ tính toán phức tạp cao. 2. Một số ký hiệu & thuật ngữ: - Một đồ thị có thể được xem là 1 tập của 5 phần từ (V,E,F,Lv,Le). - D ={G1,G2,…Gn} là tập dữ liệu của những giao dịch - Những giao dịch trong tập D là đồ thị gián tiếp được đánh dấu. - Độ hỗ trợ (support) của một đồ thị G được định nghĩa như là số phần tram đồ thị trong tập D có đồ thị con là G. - Một đồ thị được gọi là phổ biến (frequent) nếu nó có độ hỗ trợ lớn hơn một ngưỡng cho trước (ngưỡng này thường được cho trước). Ví dụ: Đồ thị con phổ biến: 3. Tổng quan về khai thác dữ liệu đồ thị - Graph Mining: 3 Lê Ngọc Hiếu – CH1101012 – K6UIT – occbuu@gmail.com Bài thu hoạch môn KHAI PHÁ DỮ LIỆU – Tìm hiểu về GRAPH MINING I.2) Khai thác dữ liệu đồ thị: đồ thị phổ biến 1. Khai thác đồ thị phổ biến – Graph Pattern Mining: - Giới thiệu: Trên là các tập đồ thị. 2. Đồ thị mẫu – Graph Pattern: - Các thong số hữu ích & lý thú, từ đó có được các hành động theo mục đích đưa ra: o Tần số xuất hiện: Đồ thị mẫu phổ biến o Ứng xử khác, xử lý khác: Để lấy các thong tin cần thiết 4 Lê Ngọc Hiếu – CH1101012 – K6UIT – occbuu@gmail.com Bài thu hoạch môn KHAI PHÁ DỮ LIỆU – Tìm hiểu về GRAPH MINING o Mức ý nghĩa. 3. Đồ thị mẫu phổ biến – Frequent Graph Pattern • Cho một tập dữ liệu đồ thị D, tìm đồ thị con g sao cho : – – Trong đó freq(g) là phần tram của các đồ thị trong D chứa g • Ví dụ 1 về đồ thị con phổ biến - Hợp chất hóa học: (a)Cafeine (ca phê in) (b)diurobromine (c) Viagra - Đồ thị con phổ biến trong các hợp chất trên là: - ss • Ví dụ 2 về đồ thị con phổ biến - Các đồ thị biểu hiện mối quan hệ gọi hàm của một chương trình - Ta có đồ thị con phổ biến sau: với độ hỗ trợ là 2 I.3) MỘ SỐ THUẬT TOÁN TRONG KHAI THÁC ĐỒ THỊ 5 Lê Ngọc Hiếu – CH1101012 – K6UIT – occbuu@gmail.com Bài thu hoạch môn KHAI PHÁ DỮ LIỆU – Tìm hiểu về GRAPH MINING - Lập trình logic qui nạp (Inductive Logic Programming) : là phần giao giữa kỹ thuật lập trình logic và học tập quy nạp, sử dụng kỹ thuật máy học & lập trình logic, áp dụng vào khai thác dữ liệu đồ thị. - Các thuật toán dựa trên tính chất của đồ thị: + Cách tiếp cận dựa vào thuật toán Apriori: tìm ra tập phổ biến nhất _ AGM/AcGM: tác giả Inokuchi, (năm 2000) _ FSG: tác giả Kuramochi & Karypis (ICDM năm 2001) _ PATH :tác giảVanetik và Gudes ( ICDM 2002, 2004) _ FFSM: tác giảHuan (ICDM 2003) và SPIN: tác giảHuan (KDD 2004) _ FTOSM:tác giả Horvath (KDD 2006) + Cách tiếp cận dựa vào độ lớn của mẫu (đồ thị mẫu) _ Subdue: tác giảHolder (KDD 1994) _ MoFa:tác giả Borgelt và Berthold (ICDM 2002) _ gSpan:tác giả Yan and Han (ICDM 2002) _ Gaston:tác giả Nijssen và Kok (KDD 2004) _ CMTreeMiner:tác giả Chi (TKDE 205), LEAP:tác giả Yan (SIGNMOD 2008) CHƯƠNG II: CÁC THUẬT TOÁN VỀ KHAI THÁC ĐỒ THỊ II.1) THUẬT TOÁN APRIORI 1. Nguyên lý: - Nếu một đồ thị là phổ biến, thì tất cả các đồ thị con của nó cũng là phổ biến. 2. Các đặc trưng của thuật toán Apriori - Thuật toán này có 2 bước chính: o Bước gia nhập (Join): tạo ra tập các ứng viên đồ thị con o Bước loại bỏ (Prune): kiểm tra tính phổ biến của từng ứng viên đồ thị con 6 Lê Ngọc Hiếu – CH1101012 – K6UIT – occbuu@gmail.com Bài thu hoạch môn KHAI PHÁ DỮ LIỆU – Tìm hiểu về GRAPH MINING - Hầu hết tập trung ở bước đầu, cố gắng tối ưu hóa ở bước đầu tiên, từ đó bước 2 sẽ tìm được đồ thị con đẳng cấu. - Các biến sư dụng biểu diễn kích thức của đồ thị con: Đỉnh (Vertices), Cạnh (Edges), Trọng số cạnh (path-number)… - Trình tự chạy của thuật toán: - thuật toán AGM (tác giả Inokuchi): Độ lớn của đồ thị là số đỉnh (#vertices) - thuật toán FSG (tác giả Karypis): Độ lớn của đồ thị là số cạnh (#edges) o Dựa vào số cạnh mà sinh ra các ứng viên: tăng kích thước đồ thị con lên 1 sau 1 lần lặp. o Bước tham gia (Join) hai đồ thị con cùng kích thước k được nhập vào khi và chỉ khi chúng có chung lõi kích thước k-1. - thuật toán PATH (tác giả Venetik): Độ lớn của đồ thị là số [path number] (là số cạnh tối thiểu phân chia đường dẫn vào đồ thị có thể được phân tách) - Tuy nhiên, ở bước gia nhập (Join) sinh ra các ứng viên khá phức tạp & chi phí cao, tiêu hao nhiều bộ nhớ ( nếu sử dụng BFS); Đồng thời ở bước loại bỏ cũng nhiều khuyết điểm, không hiệu quả khi thực hiện kiểm tra tính đẳng cấu của đồ thị con. Từ đó người ta đưa ra thuật toán dựa trên tiếp cận tăng trưởng mẫu (Pattern-Growth) 3. Phân tích thuật toán: - Chi phí của thuật toán: 7 Lê Ngọc Hiếu – CH1101012 – K6UIT – occbuu@gmail.com Lõi Bài thu hoạch môn KHAI PHÁ DỮ LIỆU – Tìm hiểu về GRAPH MINING II.2) THUẬT TOÁN TĂNG TRƯỞNG MẪU (PATTERN GROWTH) 1) Ý tưởng cơ bản: - Để tránh sự phức tạp trong bước gia nhập (Join) ở thuật toán Apriori - Kéo dài & mở rộng trực tiếp các mẫu bằng cách thêm vào cạnh mới e và ứng viên mới được sinh ra g+ x e: o Nếu e là một cạnh hướng ra, nối với đỉnh x mới thì có giá trị f o ngược lại sẽ có giá trị là b, có nghĩa là cạnh lui lại. - Đệ quy kéo dài & mở rộng mẫu phổ biến g cho đến khi đồ thị phổ biến chứa g không còn được tìm thấy ( tức là duy nhất). 2) Framework: - Đầu vào: g là đồ thị con phổ biến, D là tập dữ liệu đồ thị, σ là độ hỗ trợ và S là tập các đồ thị con phổ biến. - Thuật toán: o Lặp lại bước kiểm tra: if (g đã có trong S) return; else Thêm g vào S; o Bước mở rộng: Tìm tất cả các cạnh e trong tập dữ liệu sao cho Tập g có thể mở rộng thành g+ x e o Bước loại bỏ: For each (tập phổ biến g+ x e) Gọi đệ quy Pattern-Growth(g+ x e,D, σ,S); o Return: 3) Nhược điểm: ở bước mở rộng là bước kém hiệu quả vì: - Với những đồ thị giống nhau sẽ được chạy nhiều lần: o Ví dụ: đồ thị có cùng số cạnh là n sẽ được tìm thấy từ n đồ thị có n-1 cạnh. - Việc lặp đi lặp lại sinh ra & trùng lắp các bước kiểm tra sẽ làm tốn bộ nhớ, tài nguyên & thời gian của thuật toán. 4) Thuật toán gSpan: 8 Lê Ngọc Hiếu – CH1101012 – K6UIT – occbuu@gmail.com Bài thu hoạch môn KHAI PHÁ DỮ LIỆU – Tìm hiểu về GRAPH MINING - Sử dụng DFS để duyệt đồ thị - DFS: duyệt theo trình tự các đỉnh đi qua trong cây DFS. - Ý tưởng chủ đạo: o Rút gọn việc mở rộng bằng cách cho phép mở rộng chỉ một số hướng nhất định (Đường đi chủ yếu) o Một cạnh mới từ hướng đi chính ( chủ yếu) từ đỉnh V n tới bất kỳ đỉnh trong đường đi chủ yếu đó. o (Hoặc là) Mỏ ra một đỉnh và nối tới bất kỳ đỉnh nào để tạo ra đường đi chủ yếu. o Vấn đề: Có nhiều cây DFS tồn tại cho đồ thị và sẽ dẫn đến việc trùng lắp o Giải pháp: chọn một trong số đồ thị trùng lắp đó làm chính, và mở rộng theo hướng chủ đạo ( theo đường đi chủ yếu). - Cây từ điển tìm kiếm DFS: (DFS Lexicographic search tree) 5) Vấn đề mở rộng đồ thị mẫu – Khai thác đồ thị phổ biến gần nhất - Thuật toán Apriori nói rằng: nếu một đồ thị là phổ biến thì tất cả đồ thị con cũng là phổ biến. - Một đồ thị n- Cạnh là phổ biến sẽ có 2 n đồ thị con phổ biến. - Ví dụ: Trong số 423 hợp chất hóa học được xác nhận là hoạt tính đối với AIDS trong tập dữ liệu, thì có 1 triệu đồ thị mẫu phổ biến mà độ hỗ trợ của nó ít nhất là 5%. - Từ đó ta đưa ra việc khai thác đồ thị con phổ biến gần nhất. - Đồ thị phổ biến gần nhất: 9 Lê Ngọc Hiếu – CH1101012 – K6UIT – occbuu@gmail.com Đườngđichủyếu Nhánhbêntráiluônnhỏhơnnhánhbênphải Bài thu hoạch môn KHAI PHÁ DỮ LIỆU – Tìm hiểu về GRAPH MINING o MỘt đồ thị phổ biến G là gần nhất nếu không tồn tại siêu đồ thị của G mà có độ hỗ trợ giống G. o MỘt tập các đồ thị con phổ biến gần nhất có sức mạnh giống nhau giống như tổng số của tất cả các tập con phổ biến o Torng dữ liệu chống lại virus AIDS có 1 triệu tập con phổ biến, nhưng chỉ có 2000 tập là gần nhất. - Ưu điểm của đồ thị phổ biến gần nhất: o Một số tập đồ thị phổ biến gần nhất ở xa sẽ ít hơn tổng số đồ thị phổ biến. o Ta có thể thay thế các đồ thị phổ biến bằng tính năng tương ứng trong các ứng dụng. - Đồ thị gần (Close graph) o Hiệu quả cho thuật toán tăng trưởng mẫu để khai thác tập CFG. o Mở rộng tập mẫu đơn giản hơn với thuật toán gSpan. - Giải quyết các vụ án khó: 6) Thuật toán SUBDUE: - Bắt đầu với một đỉnh đơn - Mở rộng cấu trúc con tốt nhất với một cạnh mới - Giới hạn số cấu trúc con tốt nhất. o Cấu trúc con được đánh giá dựa trên khả năng của nó có thể nén tải đầu vào của đồ thị ( graph inputs) o Sử dụng chiều dài ngắn nhất để mô tả (DL) o Cấu trúc con tốt nhất S trong đồ thị G tối thiểu hóa: DL(S) + DL(G\S); - Ngừng khi nào không có cấu trúc con nào được tìm thấy. 10 Lê Ngọc Hiếu – CH1101012 – K6UIT – occbuu@gmail.com [...]... debug trong lp trỡnh 17 Lờ Ngc Hiu CH1101012 K6UIT occbuu@gmail.com Bi thu hoch mụn KHAI PH D LIU Tỡm hiu v GRAPH MINING Phõn lp th ng dng vo mng Malware CHNG IV: TH - GRAPH COMPRESSION 18 Lờ Ngc Hiu CH1101012 K6UIT occbuu@gmail.com NẫN Bi thu hoch mụn KHAI PH D LIU Tỡm hiu v GRAPH MINING CHNG V: NG DNG KHAI THC TH VO QUN Lí TIN CY TRấN MNG V.1 MT S Kí HIU G = (V, E) : th V: tp ca...Bi thu hoch mụn KHAI PH D LIU Tỡm hiu v GRAPH MINING Cutrỳcphõnnhúmcamt Phõnt DNA - u im: o Thc hin mang tớnh cht tng i, khụng chớnh xỏc, cho phộp cú nhiu cu trỳc khỏc nhau o Gim s mu th con ph bin - ng dng: o Cu trỳc phõn nhúm ca cỏc cm cha rừ rang o Nộn th o Hc ng phỏp th ( Graph grammar learning) 7) Khai thỏc mu th ti i (Maximal Graph Pattern Mining) - Lp tng ng da trờn cõy... trớ ca nú Vic nghiờn cu v khai phỏ d liu th l cũn rt hn ch Vic phỏt trin ng dng khai phỏ d liu th s giỳp cho ngnh cụng nghip ca Vit Nam phỏt trin tt hn, c bit l cụng ngh sinh hc húa sinh TI LIU THAM KHO Ting Anh 30 Lờ Ngc Hiu CH1101012 K6UIT occbuu@gmail.com Bi thu hoch mụn KHAI PH D LIU Tỡm hiu v GRAPH MINING [1] D.V Janardhan Rao Prof Prasad Tadepalli, A study of Graph Mining Algorithms , 2007... trong dũng 25 Lờ Ngc Hiu CH1101012 K6UIT occbuu@gmail.com Bi thu hoch mụn KHAI PH D LIU Tỡm hiu v GRAPH MINING - Pass 2: chn bt k ng no cú di l 2 (a,b,c) - Pass 3: nu (a,c) thuc E thỡ ngc li m s tam giỏc: 6) M rng thut toỏn: 26 Lờ Ngc Hiu CH1101012 K6UIT occbuu@gmail.com Bi thu hoch mụn KHAI PH D LIU Tỡm hiu v GRAPH MINING V.4 - CU TRC CM CC B CLUSTERING STRUCTURE 1) H s cluster cc b - Tớnh... 1999] - 19 Lờ Ngc Hiu CH1101012 K6UIT occbuu@gmail.com Bi thu hoch mụn KHAI PH D LIU Tỡm hiu v GRAPH MINING 3) Bc vo ca th web:[Broder 4) Bc ra ca th web et al., 2000, Donato et al., 2007] [Broder et al., 2000, Donato et al., 2007] 20 Lờ Ngc Hiu CH1101012 K6UIT occbuu@gmail.com Bi thu hoch mụn KHAI PH D LIU Tỡm hiu v GRAPH MINING 5) Mt s bc khỏc cú liờn quan: - Cnh 2 chiu: T l phn trm cỏc cnh... of Graph Mining Algorithms , 2007 [2] DEEPAYAN CHAKRABARTI AND CHRISTOS FALOUTSOS, Graph Mining: Laws, Generators, and Algorithms, Yahoo! Research and Carnegie Mellon University, 2006 [3] Karsten Borgwardt and Xifeng Yan, GRAPH MINING, Max Planck Institute for Developmental Biology, 2008 [4] Stefano Leonardi, Graph Mining and its applications to Reputation Management in Networks, Sapienza University... th con khụng phi l ti i a phng II.3) C IM CA THUT TON KHAI THC TH 1) Trỡnh t tỡm kim: - Cng ging nh trong cỏc thut toỏn ca th, ta cú trỡnh t duyt th theo chiu sõu & theo - chiu rng BFS & DFS Duyt ton b & khụng ton b 11 Lờ Ngc Hiu CH1101012 K6UIT occbuu@gmail.com Bi thu hoch mụn KHAI PH D LIU Tỡm hiu v GRAPH MINING 2) Cỏc th h thut toỏn khai thỏc th 3) Th t khỏm phỏ mu ( Order) - M rng t do:... toỏn khai thỏc th 3) Th t khỏm phỏ mu ( Order) - M rng t do: - M rng theo hng chớnh ( hng ch yu): 12 Lờ Ngc Hiu CH1101012 K6UIT occbuu@gmail.com Bi thu hoch mụn KHAI PH D LIU Tỡm hiu v GRAPH MINING 4) Khai thỏc th con cht ch (Coherent Subgraph) - ng c: o gii quyt thit hi gõy ra do tớnh a chiu, m vn gi nguyờn tớnh nng tỡm kim mu o ph bin í tng c bn: loi b cỏc tớnh nng d tha m khụng cung cp thờm bt... hon tt da trờn thụng tin chung ln nhau 5) Khai thỏc th con dy c (Dense Subgraph) - th quan h: Tt c cỏc node cú duy nht 1 nhón vd nh mụ hỡnh mng xó hi, mng sinh hc - Vn l khai thỏc s dy c hay ph bin cao nht vi cỏc th con t cỏc th quan h o Khai thỏc d liu t mng li xó hi o Tp cỏc gene cú cựng chc nng thng c sp xp theo mt trt t sinh hc nht nh - Ging nh ang khai thỏc giỏ tr trung bỡnh ca mt nh no ú... mụn KHAI PH D LIU Tỡm hiu v GRAPH MINING V.5 S LIU TOPO: 1) Page rank: 2) Tớnh toỏn Pagerank Semi-streaming version of the power iteration method 1: for node : 1 N do 2: PR(node):=1/N 3: end for 4: for distance : 1 d do {Iteration step} 5: for dest : 1 N do {Follow links in the graph} 6: for all links from src to dest do 29 Lờ Ngc Hiu CH1101012 K6UIT occbuu@gmail.com Bi thu hoch mụn KHAI . môn KHAI PHÁ DỮ LIỆU – Tìm hiểu về GRAPH MINING ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÀI THU HOẠCHMÔN HỌC : KHAI PHÁ DỮ LIỆU ĐỀ TÀI TÌM HIỂU VỀ KHAI PHÁ ĐỒ. ĐỒ THỊ GRAPH MINING MỤC LỤC Trang Mục lục 2 Lời mở đầu 3 Chương I: Giới thiệu về khai phá dữ liệu từ đồ thị - Graph mining 4 1) Các khái niệm & định nghĩa 2) Khai thác dữ liệu đồ thị - đồ thị. dụ: Đồ thị con phổ biến: 3. Tổng quan về khai thác dữ liệu đồ thị - Graph Mining: 3 Lê Ngọc Hiếu – CH1101012 – K6UIT – occbuu@gmail.com Bài thu hoạch môn KHAI PHÁ DỮ LIỆU – Tìm hiểu về GRAPH MINING I.2)