Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)

69 144 0
Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)

B GIÁO D O HÒNG ÁN T T NGHI P NGÀNH CƠNG NGH THƠNG TIN B GIÁO D O HỊNG H I PHÒNG 2016 K TH M TRONG KHAI PHÁ D ÁN T T NGHI P H LI U WEB I H C CHÍNH QUY Ngành: Cơng ngh Thơng tin Hải Phòng 2016 H I PHềNG 2016 B GIO D O HÒNG K T H P CÁC KHAI PHÁ D ÁN T T NGHI P H M TRONG LI U WEB I H C CHÍNH QUY Ngành: Cơng ngh Thơng tin Sinh viên th c hi n: Cao H u H i ng d n: Nguy n Tr Mã sinh viên: 1212101007 H I PHÒNG 2016 TR T H Sinh viên: Cao H u H i Mã s : 1212101007 L p:CT1601 Ngành: Công ngh Thông tin tài: K t h m khai phá d li u Web N i dung yêu c u c n gi i quy t nhi m v tài t t nghi p a N i dung: - Tìm hi u v khai phá d li u, khai phá d li u Web Tìm hi u thu t tốn phân c m ph bi n - Áp d ng thu t tốn phân c m tìm ki m phân c m tài li u Web - ng h th ng Th nghi m v i cơng c gi i quy t tốn b Các yêu c u c n gi i quy t - N N N c lý thuy t v khai phá d li u Web c thu t toán phân c m d li u c trình phân c m d li u Web c mơ hình phân c m d li u v i ph n m n Orange Các s li u c n thi m th c t p thi t k , tính toán CÁN B NG D TÀI T T NGHI P ng d n th nh t: H tên: Nguy n Tr H c hàm, h c v : Th i h c Dân l p H i Phòng N ng d n: toán tài t t nghi Yêu c u ph n nhi m v n nhi m v Sinh viên Cán b H ng d 2016 HI NG n H u Ngh PH N NH N XÉT TÓM T T C A CÁN B Tinh th nhi m v c ng c tài t t nghi p): m c a cán b NG D N tài t t nghi p: tài t t nghi p (so v i n i dung yêu c ng d n: m ghi b ng s ch ) PH N NH PH N BI thuy A CÁN B CH M TÀI T T NGHI P tài t t nghi p (v m th c t m c a cán b ph n bi n m ghi b ng s ch ) lý lu n, L IC Trong l u tiên c c m khai phá d li u Web án t t nghi Áp d n g i nh ng l thành nh t c a t i t t c nh th n trình th c hi án ch ng d n, nh em v ki n th c tinh y giáo Ths Nguy n Tr viên khoa Công ngh Thông t ti tr , gi ng i h c Dân l p H c em su t trình th c hi Xin chân thành c h c Dân l p H i Phòng, ban giám hi án n H u Ngh Hi ng t i ng, th y cô khoa Công ngh Thông t u ki n t t nh b n khác su t th i gian h c t p làm t t nghi p Cu i em xin g i l i c ng viên em r t nhi u trình h c t p làm án t t nghi p M ts cc g hoàn thi n báo cáo t t nghi p song kh h n ch nên báo cáo v n thi u nhi u sai sót Vì v y em r a th y cô b n bè Em xin chân thành c H i Phòng,ngày 24 tháng 12 Sinh viên Cao H u H i cs M CL C L IC M C L C DANH SÁCH HÌNH DANH SÁCH B NG DANH M C T VI T T T U WEB .8 1.1 Khai phá d li u khai phá tri th c .8 1.1.1 Khai phá d li u 1.1.2 Quá trình khám phá tri th c 1.1.3 Khai phá d li 1.1.4 Các k thu t áp d ng khai phá d li u .9 1.1.5 Nh ng ch 1.1.6 a khai phá d li u 10 ng d ng c a khai phá d li u 11 1.2 m d li u .12 1.2.1 k thu t phân c m .12 1.2.2 ng d ng c a phân c m d li u .14 1.2.3 Các yêu c i v i k thu t phân c m d li u 14 1.2.4 Các ki u d li 1.3 .15 19 1.3.1 Các ki u d li u Web 21 1.3.2 X lý d li 1.3.3 M t s v 1.4 Ti u k n ng d ng khai phá d li u Web 22 x lý d li n 22 24 T S K THU T PHÂN C M D LI U 25 2.1 Thu t toán k-means 25 2.2 Thu t toán PAM 27 Tiêu chu ch m c): gi a d1 d2 ng s trang mà c d1 d2 Hình 3-4: d1 ng trích d n d2 Hình 3-5: 3.3.2 Khai phá qu n lý c ng u tr t i ch m c ng Web M tc ng Web t p h p trang Web mà d li u c n m c Nh n bi c c ng Web, hi c s phát tri n nh ng a c ng Web r t quan tr ng Vi nh hi u c ng ng Web có th c khai phá qu n lý Web mc ac - ng Web: Các trang Web m t c ng s trang Web c ng M ic ng Web s t o thành m t c m trang Web Các c ng Web nh m t cách rõ ràng, t t c m bi c li t kê b i Yahoo C nh hoàn ch nh: Chúng nh ng c b t ng xu t hi n Khai phá c th c ti n Vì v y, vi c nghiên c n th c ti n Ngoài ra, vi u ng c ng d ng nhi u ng r t th Web có tác d ng l n vi c tìm ki m c ng n Có nhi thu t tốn tìm ki m theo ch HITS, lu ng c ti u, thu t toán PageRank, ng th c c ng i nhát c t c c 3.4 Áp d ng thu t tốn tìm ki m phân c m tài li u Web Hi n nay, s phát tri n c a công c dùng d dàn cơng c i c tìm ki m thơng tin Web Tuy nhiên, không ph i lúc u cho nh ng k t qu dúng v i nhu c u c a i dùng V y nên, ta có th nhóm k t qu c thành nhóm theo t ng i dùng có th tìm ki m nh ng thông tin theo ch mà h c n ch i dùng th c hi n vi c tìm ki m nhanh hi u qu Trong án ta s tìm hi u v vi c s d ng k thu t phân c m tài li u Web, d a kho d li c tìm ki m l 3.4.1 Tìm hi u k thu t phân c m tài li u Web Ngày nay, có r t nhi PageRank, HITS, Tuy v y, quan tr ng c a m t trang Web y ud a vào liên k nh tr ng s cho trang Ta có th ti p c n m quan tr ng theo m ng khác d a vào n i dung c a tài li xác nh tr ng s , n u tài li u "g n nhau" v n i dung s có m quan tr ng thu c v m t nhóm Gi s cho t p S g m trang web, tìm t p S trang ch a n i dung câu h i truy v c t p R S d ng thu t toán phân c m d li phân t p R thành k c nh) cho ph n t c nh t, ph n t c m khác v i T t p Sph n t vào m t k c c thi t l p Nh ng ph n t v i tr ng tâm c a c m (theo m m này, nh ng ph n t không th không phù h p v i truy v n lo i b kh i t p k t qu K ti ng s cho c m trang t p k t qu theo thu t toán sau: INPUT: t p d li u D ch a trang g m k c m k tr ng tâm OUTPUT: tr ng s c a trang BEGIN M i c m d li u th m tr ng tâm Cm ta gán m t tr ng s tsm V i tr ng tâm Ci ,Cj b t k ta ln có tsi>tsj n u ti V i m i trang p c m m v i truy v tj nh tr ng s trang pwm V i m i pwi, pwj b t k , ta ln có pw1>pw2 n u pw1 g n tr pw2 END y, theo cách ti p c n ta s gi i quy - K t qu tìm ki m s tùy vào yêu c u c th - Quá trình tìm ki vào n i dung c Gi i quy c v i dùng Có th k t h - c v sau: c phân thành c m theo ch khác nhau, i dùng s nh ch mà h c n nh tr ng s cho trang ch y u t p trung a vào liên k t trang t /c m t n c a h v c khai phá d li u v i 3.4.2 Quá trình tìm ki m phân c m tài li u V th hi - n, trình phân c m k t qu tìm ki m s di : c Tìm ki m trang Web t Website th a mãn n i dung truy v n Trích rút thơng tin mơ t t v i URL ng S d ng k thu t phân c m d li phân c m t ng trang Web thành c m, cho trang c n i dung v i m Tìm ki m trích rút d D li u Ti n x lý Web Áp d ng thu t toán Bi u di n k t qu Hình 3-6: Bi u di n d c phân c m k t qu tìm ki m Web 3.4.2.1 Tìm ki m d li u Web Nhi m v ch y u c n d a vào t p t khóa tìm ki tìm ki m tr v t p g , mơ t tóm t ng v i Nh m nâng cao t x lý, ta ti n hành tìm ki tài li u kho d li s d ng cho trình tìm ki Web Search Engine i ph n t g n mô t n i 3.4.2.2 Ti n x lý d li u Quá trình làm s ch d li u chuy n d ch tài li u thành d ng bi u di n d li u thích h n bao g m cơng vi n, xóa b t d ng, k t h p t có t g c, s hóa bi u di b n, a Chu n n chuy n thô v d n cho vi c x lý sau n, thu t ti n, xác so v i vi c x lý tr c ti n n k t qu x lý cd thơ mà Bao g m: - Xóa th HTML lo i th Chuy n ký t hoa thành ký t Xóa b d u câu, xố ký t tr trích t /c m t ng a, b Xóa b t d ng n có nh ng t mang q thơng tin, khơng có nhi u tác d ng trình x lý, nh ng t có t n s xu t hi n th p, nh ng t xu t hi n v i t n s l n ng cho trình x c lo i b Theo m t s nghiên c u y vi c lo i b t dùng có th gi m b c kho ng 20-30% t ng g s t v n Có r t nhi u t xu t hi n v i t n s l cho trình phân c m d li u Ví d ti ng Anh t u ích to, on, by, ti ng Vi ng t xu t hi n v i t n s l d ng, s d c lo i b n ng d ng th c t , ta có th t ch c thành m t danh sách t nh lu xóa b t có t n s xu t hi n th p ho c cao 3.4.2.3 Xây d ng t n Trong q trình vector hóa v n thì, xây d ng t tr ng T n g m m t b ng t ch s c 3.4.2.4 Tách t , s n trình r t quan c s p x p theo th t n bi u di n tài li u Tách t trình tìm ki m t thay th b i ch s c a t n M t s mơ hình tính s c a t là: TF, IDF, TFd ng m t mơ hình tốn h c TFbi u di t s n Chúng ta s d ng m ng W (tr ng s ) hai chi c m x n, v i n s tài li u, m s t t n (s chi u), hàng th j m t vector bi u di n tài li u th j d li u, c t th i thu t ng th i t n Wij giá tr tr ng s c a t i i v i tài li u j n th c hi n th ng kê t n s t ti xu t hi n tài li u dj s tài li u ch a ti T ng b ng tr ng s c a ma tr n W theo công th c sau: (1): N u (2): cl i Tfij : t n s xu t hi n c a t ti tài li u dj idfij : ngh o t n s xu t hi n c a t ti tài li u dj hi : s tài li u mà t ti xu t hi n n: t ng s tài li u 3.4.2.5 Phân c m tài li u m, trích rút d li u ti n x lý bi u di s d ng k thu t phân c n phân c m tài li u INPUT: T p g m n tài li u k c m OUTPUT: Các c m Ci (i=1, ,k) cho hàm tiêu chu t giá tr c c ti u BEGIN c 1: Kh i t o ng ng tr ng tâm c a k c m c 2: V i m i tài li u dj m i c m theo m nh tr nh t cho m i tài li c 3: C p nh n l tr ng tâm b c i v i tr ng tâm c a ng dùng (Euclidean, Manhattan) ng tr u vào c iv im ic nh l i nh trung bình c ng c a vector tài li u c m c 4: L p l n tâ i END nh tr ng tâm c a c m tài li u: Xét m t c tâm C c a c c tính nh vào vector t ng ng )c n cs d i di n c m c: C= |c|: s ph n t thu c t p tài li u c Trong k thu t phân c m, tr ng tâm c a c cho c m tài li u V gi a c m tài li u: Gi s ta có c m c1, c2 gi a c m tài li c tính b ng m tâm C1, C2: Sim(c1,c2)= sim(C1,C2) u r ng c1 c2 m t tài li a vector tr ng ch g m coi m t c m ch g m ph n t Trong thu t toán k-means, ch tiêu chu n: ng phân c x vector bi u di n tài li u, mi , tr ng tâm c a c m, k s c m, Ci c m th i - ph c t p c a thu t toán k-means i ng d li u, k s c m d li u, d s chi u, r s vòng l p 3.5 Th c nghi m S d ng ph n m m Orange data mining th c hi n phân c m d li u Input: - D li u g m 100 file text có tên file t file001-file100 chu n hóa d li u u theo c m: Kinh t , Chính tr , Khoa h c, Cơng ngh , Giáo d c, gi i trí, Y t (s d ng file cvs excel tr ) Output: - D li c phân c m b ng Orange Quá trình phân c m d li u b ng Orange: Hình 3-7: Mơ hình phân c m d li u Orange Hình 3-8: li u chu n hóa mơ hình Hình 3-9: B ng chu n hóa Hình 3-10: Do kho ng cách b ng Euclidean Hình 3-11: Phân c m d li m phân c p Hình 3-12: D li u sau phân c m phân c p Hình 3-13: Phân c m b ng k-means ng cách b ng Euclidean, cho th y c m thu t tốn t nh t Hình 3-14: Bi u di n d li u sau phân c m k-means 3.6 Ti u k khai phá d li Web m t s thu ts ng ti p c a tài li u Web, khai phá c u trúc Web, khai phá s d ng c áp d ng khai phá Web Ph n trình bày trình phân c m d li u b m phân c p phân c m theo thu t toán k-means, b ng ph n m m mơ hình hóa Orange Data Mining K t lu n Tìm hi u n tài giúp em có thêm ki n th c v khai phá d li u Web áp d ng k thu t phân c m khai phá d li u Web án t p chung vào vi c tìm hi u v : Khai phá tri th c, phân c m d li u, khai phá Web áp d ng k thu t phân c m khai phá d li u Web Ngoài ra, ta c n xây d ng m phân c m tài li c nghi m ph c v cho vi c tìm ki ph c v cho trình tìm ki m án t t nghi p, em p xây d p m t mơ hình phân c m d li u Web b ng ph n m n Orange Trong c tìm ki trình phân c m d li u s H chu n hóa d li u s c làm th công c gi i quy t b ng ph n m n Orange ng phát tri n: xây d ng hoàn thi n ph n m , phân c m d li u ph c v cho vi c tìm ki m ch : tìm ki m, Tài li u tham kh o Tài li u ti ng vi t [1] li u Web b ng k thu t phân c ih M ts v [2] th [3] án th Hoàng H m Hà N i,2007 v phân c m d li u i h c Công ngh c gia Hà N i, 2006 V k thu t phân c m d li u data mining c Gia Hà N i, 2005 Tài li u ti ng anh [4] Bing Liu, Web mining, Springer, 2007 [5] Ho Tu Bao,Knowledge Discovery and Data Mining, 2000 Topic Trend Detection and Mining in World [6] Wide Web ... t phân c m d li gi i quy t toán khai phá d li u Web Trong ph n t mơ hình áp d ng k thu t phân c m d li u tìm ki m phân c m tài li u Web LI U WEB 1.1 Khai phá d li u khai phá tri th c 1.1.1 Khai. .. 3.1 Khai phá n i dung Web 37 3.1.1 Khai phá k t qu tìm ki m 38 3.1.2 3.2 n Web 38 Khai phá theo s d ng Web 43 3.2.1 Các k thu c s d ng khai phá theo s d ng Web. .. trình khai phá theo s d ng Web .44 3.3 Khai phá c u trúc Web 45 3.3.1 Tiêu chu 46 3.3.2 Khai phá qu n lý c 3.4 ng Web 47 Áp d ng thu t toán tìm ki m phân c m tài li u Web

Ngày đăng: 25/02/2018, 07:36

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan