1. Trang chủ
  2. » Thể loại khác

Luận văn kết hợp các phương pháp phân cụm trong khai phá dữ liệu web

69 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 2,59 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -o0o - ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ THÔNG TIN Mangh■■ng Luôn 123doc Th■a thu■n l■icam s■ tr■ h■u k■t s■ nghi■m t■im■t d■ng s■website mang kho m■i th■ m■ l■i d■n CH■P vi■n nh■ng cho ■■u kh■ng ng■■i NH■N quy■n chia dùng, l■ CÁC s■l■i v■i và■I■U t■t công h■n mua nh■t 2.000.000 ngh■ bán KHO■N cho tàihi■n ng■■i li■u TH■A tài th■ hàng li■u dùng hi■n THU■N ■■u ■ t■t Khi ■■i, Vi■t c■ khách b■n l■nh Nam Chào online hàng v■c: Tác m■ng tr■ không tài phong thành b■n khác chun ■■n thành tíngì d■ng, v■i so nghi■p, viên 123doc v■i cơng c■a b■n hồn ngh■ 123doc g■c h■o, thơng B■n và■■ n■p có tin, cao th■ ti■n ngo■i tính phóng vào ng■, Khách trách tài to,kho■n nhi■m thu nh■ c■a ■■i hàng tùy123doc, v■i ý cót■ng th■b■n d■ ng■■i dàng s■ dùng ■■■c tra c■u M■c h■■ng tàitiêu li■u nh■ng hàng m■t■■u quy■n cáchc■a l■i123doc.net sau xác,n■p nhanh ti■n tr■ chóng thành website th■ vi■n tài li■u online l■n nh■t Vi■t Nam, cung c■p nh■ng tài li■u ■■c khơng th■ tìm th■y th■ tr■■ng ngo■i tr■ 123doc.net Nhi■u event thú v■, event ki■m ti■n thi■t th■c 123doc luôn t■o c■ h■i gia t■ng thu nh■p online cho t■t c■ thành viên c■a website Mangh■n Luôn Th■a Xu■t Sau Nhi■u 123doc h■■ng phát thu■n l■i event cam s■ nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thông dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chun ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thơng B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Lnh■n 123doc Sau Th■a Xu■t h■■ng phát thu■n cam nh■n m■t t■k■t s■ t■i ýxác n■m t■■ng d■ng s■ nh■n website mang ■■i, t■o t■l■i c■ng ■■ng d■n 123doc CH■P nh■ng ■■u ■■ng h■ NH■N ■ã quy■n th■ng chia t■ng ki■m CÁC s■s■ l■i b■■c ti■n vàchuy■n ■I■U t■t mua online kh■ng nh■t bán KHO■N sang b■ng cho tài ■■nh ng■■i li■u ph■n tài TH■A v■ li■u hàng thơng dùng tríTHU■N hi■u c■a ■■u tin Khi qu■ Vi■t xác khách nh■t, minh Nam Chào hàng uy tài l■nh Tác m■ng tín kho■n tr■ phong v■c cao thành b■n email nh■t tàichuyên ■■n li■u thành b■n Mong v■i nghi■p, viên kinh ■ã 123doc 123doc.net! mu■n ■■ng c■a doanh hoàn mang 123doc kýonline v■i h■o, Chúng l■ivà 123doc.netLink cho Tính ■■ n■p tơi c■ng cao ■■n cung ti■n tính ■■ng th■i vào c■p trách xác tài ■i■m D■ch xãkho■n th■c nhi■m h■itháng V■ m■t s■ c■a (nh■ ■■i ■■■c ngu■n 5/2014; 123doc, v■i ■■■c g■i t■ng tài 123doc v■ mô nguyên b■n ng■■i ■■a t■s■ v■■t d■■i tri dùng ■■■c ch■ th■c m■c ■ây) email M■c h■■ng quý 100.000 cho b■n tiêu báu, b■n, nh■ng ■ã hàng phong l■■t tùy ■■ng ■■u quy■n truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau vuingày, n■p lòng “■i■u giàu ti■n s■ ■■ng tr■ giá Kho■n h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i không t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Luônh■n Th■a Xu■t Sau Nhi■u 123doc Mang h■■ng phát thu■n l■i event cam s■ nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chuyên ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n cơng ■■ng c■a c■ doanh b■n hồn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thông B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t u■t phát Nhi■u Mang Luôn 123doc Th■a Xu■t Sau h■n h■■ng phát thu■n l■i event s■ cam nh■n t■ m■t tr■ t■ h■u ýk■t s■ thú nghi■m t■i ýt■■ng xác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event t■o kho m■i ■■i, t■o t■ c■ng th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■ng ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia ki■m t■ng ki■m dùng, l■ CÁC s■ th■c ti■n s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công online h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N b■ng sang b■ng cho tài ■■nh hi■n tài ng■■i li■u ph■n tài TH■A li■u tài v■ th■ li■u hàng t■o li■u thơng dùng trí hi■u hi■n THU■N hi■u c■ c■a ■■u ■ tin qu■ t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia nh■t, b■n nh■t, minh l■nh Nam t■ng Chào online uy hàng uy tài v■c: l■nh thu Tác tín m■ng tín kho■n tr■ cao nh■p khơng tài phong v■c cao thành b■n nh■t email nh■t tài online khác chuyên ■■n li■u thành tín Mong b■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã mu■n t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n mang hoàn mang ngh■ 123doc ký g■c online thành v■i l■i h■o, Chúng l■i thông B■n cho 123doc.netLink cho viên Tính ■■ n■p có c■ng tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i ■■ng tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác xã tài ■i■m D■ch xã to,h■i kho■n th■c nhi■m h■i thum■t tháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ngu■n ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cótài g■i t■ng th■ tài 123doc nguyên v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t tri d■■i tri dùng ■■■c ch■ th■c tra th■c m■c ■ây) email c■u quý M■c h■■ng quý 100.000 cho tài báu, b■n tiêu báu, li■u b■n, nh■ng phong ■ã hàng phong m■t l■■t tùy ■■ng ■■u phú, quy■n cách truy thu■c phú, ky, c■a c■p ■a ■a l■i b■n vào d■ng, 123doc.net m■i d■ng, sau xác, vuingày, n■p giàu lòng “■i■u nhanh giàu ti■n giá s■ ■■ng tr■ giá Kho■n chóng h■u tr■ thành tr■ nh■p ■■ng 2.000.000 website ■■ng Th■a th■ email th■i vi■n th■i Thu■n mong c■a thành mong tài v■ li■u mu■n viên mu■n S■ online ■■ng D■ng t■o click t■o l■n ■i■u ký, D■ch ■i■u vào nh■t l■t link ki■n ki■n V■” vào Vi■t 123doc cho top sau cho Nam, cho 200 ■ây cho ■ã cung các (sau g■i users website c■p users ■âynh■ng có ■■■c cóph■ thêm thêm tài bi■n g■i thu thu li■u t■t nh■p nh■t nh■p ■■c T■it■i Chính khơng t■ng Chính Vi■tth■i vìth■ Nam, vìv■y v■y ■i■m, tìm 123doc.net t■123doc.net th■y l■chúng tìm ki■m tơi th■ racó ■■i thu■c ■■i tr■■ng th■ nh■m nh■m c■p top ngo■i ■áp 3nh■t ■áp Google ■ng tr■ ■KTTSDDV ■ng 123doc.net nhu Nh■n nhuc■u c■u ■■■c chia theo chias■ quy■t danh s■tàitài hi■u li■u li■uch■t ch■t c■ng l■■ng l■■ng ■■ng vàvàki■m bình ki■mch■n ti■n ti■nonline online website ki■m ti■n online hi■u qu■ uy tín nh■t Nhi■u Mang Ln 123doc Th■a Xu■t Sau h■n h■■ng phát thu■n l■i event s■ cam nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chuyên ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thông B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mơ ngun b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG HẢI PHÒNG 2016 -o0o - KẾT HỢP CÁC PHƢƠNG PHÁP PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU WEB ĐỒ ÁN TỐT NGHIỆP HỆ ĐẠI HỌC CHÍNH QUY Ngnh: Cụng ngh Thụng tin Hải Phòng 2016 HI PHềNG 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -o0o - KẾT HỢP CÁC PHƢƠNG PHÁP PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU WEB ĐỒ ÁN TỐT NGHIỆP HỆ ĐẠI HỌC CHÍNH QUY Ngành: Cơng nghệ Thơng tin Sinh viên thực hiện: Cao Hữu Hải Giáo viên hƣớng dẫn: Nguyễn Trịnh Đơng Mã sinh viên: 1212101007 HẢI PHỊNG 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc -o0o - NHIỆM VỤ THIẾT KẾ TỐT NGHIỆP Sinh viên: Cao Hữu Hải Mã số: 1212101007 Lớp:CT1601 Ngành: Công nghệ Thông tin Tên đề tài: Kết hợp phƣơng pháp phân cụm khai phá liệu Web NHIỆM VỤ ĐỀ TÀI Nội dung yêu cầu cần giải nhiệm vụ đề tài tốt nghiệp a Nội dung: - Tìm hiểu khai phá liệu, khai phá liệu Web - Tìm hiểu thuật toán phân cụm phổ biến Áp dụng thuật tốn phân cụm tìm kiếm phân cụm tài liệu Web - Đề phƣơng pháp xây dựng hệ thống - Thử nghiệm với công cụ để giải toán b Các yêu cầu cần giải - Nắm đƣợc lý thuyết khai phá liệu Web - Nắm đƣợc thuật toán phân cụm liệu Nắm đƣợc trình phân cụm liệu Web Xây đựng đƣợc mơ hình phân cụm liệu với phần mền Orange Các số liệu cần thiết để thiết kế, tính tốn Địa điểm thực tập CÁN BỘ HƢỚNG DẪN ĐỀ TÀI TỐT NGHIỆP Ngƣời hƣớng dẫn thứ nhất: Họ tên: Nguyễn Trịnh Đông Học hàm, học vị: Thạc sĩ Cơ quan công tác: Đại học Dân lập Hải Phòng Nội dung hƣớng dẫn: Tìm hiểu phƣơng pháp phân cụm Tìm hiểu số phƣơng pháp tạo luật giải thuật liên quan Đề phƣơng pháp xây dựng hệ thống Thử nghiệm với công cụ để giải toán Đề tài tốt nghiệp đƣợc giao ngày 03 tháng 10 năm 2016 Yêu cầu phải hoàn thành trƣớc ngày 24 tháng 12 năm 2016 Đã nhận nhiệm vụ: Đ.T.T.N Đã nhận nhiệm vụ: Đ.T.T.N Sinh viên Cán hƣớng dẫn Đ.T.T.N Hải Phòng, ngày tháng .năm 2016 HIỆU TRƢỞNG GS.TS.NGƯT Trần Hữu Nghị PHẦN NHẬN XÉT TÓM TẮT CỦA CÁN BỘ HƢỚNG DẪN Tinh thần thái độ sinh viên trình làm đề tài tốt nghiệp: ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… Đánh giá chất lƣợng đề tài tốt nghiệp (so với nội dung yêu cầu đề nhiệm vụ đề tài tốt nghiệp): …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………… Cho điểm cán hƣớng dẫn: ( Điểm ghi số chữ ) ………………………………………………………………………………… …………………………………………………………………………… Ngày .tháng .năm 2016 Cán hƣớng dẫn ( Ký, ghi rõ họ tên ) PHẦN NHẬN XÉT ĐÁNH GIÁ CỦA CÁN BỘ CHẤM PHẢN BIỆN ĐỀ TÀI TỐT NGHIỆP Đánh giá chất lƣợng đề tài tốt nghiệp (về mặt nhƣ sở lý luận, thuyết minh chƣơng trình, giá trị thực tế,…): ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… Cho điểm cán phản biện (Điểm ghi số chữ) ………………………………………………………………………………………………… ………………………………………………………………………………………………… Ngày .tháng .năm 2016 Cán chấm phản biện ( Ký, ghi rõ họ tên ) LỜI CẢM ƠN Trong lời báo cáo đồ án tốt nghiệp “Áp dụng phƣơng pháp phân cụm khai phá liệu Web”, em muốn gửi lời cám ơn biết ơn chân thành tới tất ngƣời hỗ trợ, giúp đỡ em kiến thức tinh thần trình thực đồ án Trƣớc hết, em xin chân thành cám ơn thầy giáo Ths Nguyễn Trịnh Đông, giảng viên khoa Công nghệ Thông tin, Trƣờng Đại học Dân lập Hải Phòng, ngƣời trực tiếp hƣớng dẫn, nhận xét, giúp đỡ em suốt trình thực đồ án Xin chân thành cảm ơn GS.TS.NGƢT Trần Hữu Nghị Hiệu trƣởng trƣờng Đại học Dân lập Hải Phịng, ban giám hiệu nhà trƣờng, thầy khoa Cơng nghệ Thơng tin phịng ban nhà trƣờng tạo điều kiện tốt cho em nhƣ bạn khác suốt thời gian học tập làm tốt nghiệp Cuối em xin gửi lời cảm ơn đến gia đình, bạn bè, ngƣời thân giúp đỡ động viên em nhiều trình học tập làm đồ án tốt nghiệp Mặc dù em cố gắng để hoàn thiện báo cáo tốt nghiệp song khả hạn chế nên báo cáo cịn thiếu nhiều sai sót Vì em mong đƣợc đóng góp thầy cô bạn bè Em xin chân thành cảm ơn! Hải Phòng,ngày 24 tháng 12 năm 2016 Sinh viên Cao Hữu Hải Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin MỤC LỤC LỜI CẢM ƠN MỤC LỤC DANH SÁCH HÌNH DANH SÁCH BẢNG .6 DANH MỤC TỪ VIẾT TẮT CHƢƠNG 1: GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU WEB 1.1 Khai phá liệu khai phá tri thức .8 1.1.1 Khai phá liệu 1.1.2 Quá trình khám phá tri thức 1.1.3 Khai phá liệu lĩnh vực liên quan 1.1.4 Các kỹ thuật áp dụng khai phá liệu .9 1.1.5 Những chức khai phá liệu 10 1.1.6 Ứng dụng khai phá liệu 11 1.2 Phƣơng pháp phân cụm liệu 12 1.2.1 Giới thiệu kỹ thuật phân cụm .12 1.2.2 Ứng dụng phân cụm liệu .14 1.2.3 Các yêu cầu kỹ thuật phân cụm liệu 14 1.2.4 Các kiểu liệu độ đo tƣơng tự 15 1.3 Khai phá Web 19 1.3.1 Các kiểu liệu Web 21 1.3.2 Xử lý liệu văn ứng dụng khai phá liệu Web 22 1.3.3 Một số vấn đề xử lý liệu văn 22 1.4 Tiểu kết chƣơng 24 CHƢƠNG 2: MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU 25 2.1 Thuật toán k-means 25 2.2 Thuật toán PAM 27 Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin Tiêu chuẩn 3(Tư ng tự mục): Độ tƣơng tự d1 d2 đƣợc đo số trang mà d1 d2 trở tới Hình 3-4: d1 Độ tƣơng đồng trích dẫn d2 Hình 3-5: Độ tƣơng tự mục 3.3.2 Khai phá quản lý cộng đồng Web Một cộng đồng Web tập hợp trang Web mà liệu liên quan đến lĩnh vực Nhận biết đƣợc cộng đồng Web, hiểu đƣợc phát triển đặc trƣng cộng đồng Web quan trọng Việc xác định hiểu cộng đồng Web đƣợc xem nhƣ việc khai phá quản lý Web Đặc điểm cộng đồng Web: - Các trang Web cộng đồng “tƣơng tự” với trang Web cộng đồng Mỗi cộng đồng Web tạo thành cụm trang Web Các cộng đồng Web đƣợc xác định cách rõ ràng, tất ngƣời biết, nhƣ nguồn tài nguyên đƣợc liệt kê Yahoo Cộng đồng Web đƣợc xác định hoàn chỉnh: Chúng cộng đồng bất ngờ xuất Khai phá cộng đồng Web ngày đƣợc quan tâm đƣợc ứng dụng nhiều thực tiễn Vì vậy, việc nghiên cứu phƣơng pháp khám phá cộng đồng có ý nghĩa to lớn thực tiễn Ngồi ra, việc phân tích đồ thị Web có tác dụng lớn việc tìm kiếm cộng đồng ẩn Có nhiều phƣơng pháp chứng thực cộng đồng Web nhƣ: thuật tốn tìm kiếm theo chủ đề HITS, luồng cực đại nhát cắt cực tiểu, thuật toán PageRank, Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 47 3.4 Áp dụng thuật tốn tìm kiếm phân cụm tài liệu Web Hiện nay, phát triển công cụ Web Search Engine giúp ngƣời dùng dễ dàng việc tìm kiếm thơng tin Web Tuy nhiên, lúc công cụ Web Search Engine cho kết dúng với nhu cầu ngƣời dùng Vậy nên, ta nhóm kết tìm đƣợc thành nhóm theo chủ đề, sau ngƣời dùng tìm kiếm thông tin theo chủ đề mà họ cần Điều giúp cho ngƣời dùng thực việc tìm kiếm nhanh hiệu Trong đồ án ta tìm hiểu việc sử dụng kỹ thuật phân cụm tài liệu Web, dựa kho liệu đƣợc tìm kiếm lƣu trữ 3.4.1 Tìm hiểu kỹ thuật phân cụm tài liệu Web Ngày nay, có nhiều phƣơng pháp đánh giá độ quan trọng trang Web nhƣ: PageRank, HITS, … Tuy vậy, phƣơng pháp đánh giá chủ yếu dựa vào liên kết trang để xác định trọng số cho trang Ta tiếp cận cách đánh giá mức độ quan trọng theo hƣớng khác dựa vào nội dung tài liệu để xác định trọng số, tài liệu "gần nhau" nội dung có mức độ quan trọng tƣơng đƣơng thuộc nhóm Giả sử cho tập S gồm trang web, tìm tập S trang chứa nội dung câu hỏi truy vấn ta đƣợc tập R Sử dụng thuật toán phân cụm liệu để phân tập R thành k cụm (k xác định) cho phần tử cụm tƣơng tự nhất, phần tử cụm khác phi tƣơng tự với Từ tập S-R, đƣa phần tử vào k cụm đƣợc thiết lập Những phần tử tƣơng tự với trọng tâm cụm (theo ngƣỡng xác định đó) đƣa vào cụm này, phần tử không thỏa mãn xem nhƣ không phù hợp với truy vấn loại bỏ khỏi tập kết Kế tiếp, đánh trọng số cho cụm trang tập kết theo thuật tốn sau: Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Cơng nghệ Thông tin 48 INPUT: tập liệu D chứa trang gồm k cụm k trọng tâm OUTPUT: trọng số trang BEGIN Mỗi cụm liệu thứ m trọng tâm Cm ta gán trọng số tsm Với trọng tâm Ci ,Cj ta ln có tsi>tsj ti tƣơng tự với truy vấn tj Với trang p cụm m ta xác định trọng số trang pwm Với pwi, pwj bất kỳ, ta ln có pw1>pw2 pw1 gần trọng tâm pw2 END Như vậy, theo cách tiếp cận ta giải vấn đề sau: - Kết tìm kiếm đƣợc phân thành cụm theo chủ đề khác nhau, tùy vào yêu cầu cụ thể ngƣời dùng xác định chủ đề mà họ cần - Quá trình tìm kiếm xác định trọng số cho trang chủ yếu tập trung vào nội dung trang dựa vào liên kết trang Giải đƣợc vấn đề từ/cụm từ đồng nghĩa câu truy vấn ngƣời dùng - Có thể kết hợp phƣơng pháp phân cụm lĩnh vực khai phá liệu với phƣơng pháp tìm kiếm có 3.4.2 Q trình tìm kiếm phân cụm tài liệu Về bản, trình phân cụm kết tìm kiếm diễn theo bƣớc đƣợc thể nhƣ sau : - Tìm kiếm trang Web từ Website thỏa mãn nội dung truy vấn Trích rút thơng tin mơ tả từ trang lƣu trữ với URL tƣơng ứng Sử dụng kỹ thuật phân cụm liệu để phân cụm tự động trang Web thành cụm, cho trang cụm “tƣơng tự” nội dung với trang cụm Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 49 Dữ liệu Tìm kiếm trích rút Tiền xử lý Web Biểu diễn kết Áp dụng thuật toán Biểu diễn Hình 3-6: Các bƣớc phân cụm kết tìm kiếm Web 3.4.2.1 Tìm ki m liệu Web Nhiệm vụ chủ yếu giai đoạn dựa vào tập từ khóa tìm kiếm để tìm kiếm trả tập gồm toàn văn tài liệu, tiêu đề, mơ tả tóm tắt, URL,… tƣơng ứng với trang Nhằm nâng cao tốc độ xử lý, ta tiến hành tìm kiếm lƣu trữ tài liệu kho liệu để sử dụng cho trình tìm kiếm (tƣơng tự nhƣ Web Search Engine Yahoo, Google,…) Mỗi phần tử gồm toàn văn tài liệu, tiêu đề, đoạn mô tả nội dung, URL,… 3.4.2.2 Ti n xử lý liệu Quá trình làm liệu chuyển dịch tài liệu thành dạng biểu diễn liệu thích hợp Giai đoạn bao gồm cơng việc nhƣ sau: Chuẩn hóa văn bản, xóa bỏ từ dừng, kết hợp từ có từ gốc, số hóa biểu diễn văn bản, a Chuẩn hó văn Đây giai đoạn chuyển văn thô dạng văn cho việc xử lý sau đƣợc dễ dàng, đơn giản, thuật tiện, xác so với việc xử lý trực tiếp văn thơ mà ảnh hƣởng đến kết xử lý Bao gồm: - Xóa thẻ HTML loại thẻ khác để trích từ/cụm từ Chuyển ký tự hoa thành ký tự thƣờng Xóa bỏ dấu câu, xố ký tự trắng dƣ thừa, Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Cơng nghệ Thơng tin 50 b Xóa bỏ từ dừng Trong văn có từ mang q thơng tin, khơng có nhiều tác dụng q trình xử lý, từ có tần số xuất thấp, từ xuất với tần số lớn nhƣng không quan trọng cho trình xử lý đƣợc loại bỏ Theo số nghiên cứu gần cho thấy việc loại bỏ từ dùng giảm đƣợc khoảng 20-30% tổng số từ văn Có nhiều từ xuất với tần số lớn nhƣng khơng hữu ích cho q trình phân cụm liệu Ví dụ tiếng Anh từ nhƣ a, an, the, of, and, to, on, by, tiếng Việt nhƣ từ “thì”, “mà”, “là”, “và”, “hoặc”, Những từ xuất với tần số lớn đƣợc loại bỏ Để đơn giản ứng dụng thực tế, ta tổ chức thành danh sách từ dừng, sử dụng định luật Zipf để xóa bỏ từ có tần số xuất thấp cao 3.4.2.3 Xây dựng từ điển Trong q trình vector hóa văn thì, xây dựng từ điển trình quan trọng Từ điển gồm bảng từ số sau đƣợc xếp theo thứ tự 3.4.2.4 Tách từ, s hóa văn n biểu di n tài liệu Tách từ trình tìm kiếm từ thay số từ từ điển Một số mơ hình tính số từ là: TF, IDF, TF-IDF,… Ở ta sử dụng mơ hình tốn học TF-IDF, để biểu diễn văn Chúng ta sử dụng mảng W (trọng số) hai chiều có kích thƣớc m x n, với n số tài liệu, m số từ từ điển (số chiều), hàng thứ j vector biểu diễn tài liệu thứ j sở liệu, cột thứ i thuật ngữ thứ i từ điển Wij giá trị trọng số từ i tài liệu j Giai đoạn thực thống kê tần số từ ti xuất tài liệu dj số tài liệu chứa ti Từ xây dựng bảng trọng số ma trận W theo công thức sau: { [ ( )] ( ) (1): Nếu (2): Ngƣợc lại Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 51 Trong đó: Tfij : tần số xuất từ ti tài liệu dj idfij : nghịch đảo tần số xuất từ ti tài liệu dj hi : số tài liệu mà từ ti xuất n: tổng số tài liệu 3.4.2.5 Phân cụm tài liệu Sau tìm kiếm, trích rút liệu tiền xử lý biểu diễn văn sử dụng kỹ thuật phân cụm để phân cụm tài liệu INPUT: Tập gồm n tài liệu k cụm OUTPUT: Các cụm Ci (i=1, ,k) cho hàm tiêu chuẩn đạt giá trị cực tiểu BEGIN Bước 1: Khởi tạo ngẫu nhiên k vector làm đối tƣợng trọng tâm k cụm Bước 2: Với tài liệu dj xác định độ tƣơng tự trọng tâm cụm theo độ đo tƣơng tự thƣờng dùng (Euclidean, Manhattan) Xác định trọng tâm tƣơng tự cho tài liệu đƣa tài liệu vào cụm Bước 3: Cập nhận lại đối tƣợng trọng tâm Đối với cụm ta xác định lại trọng tâm cách xác định trung bình cộng vector tài liệu cụm Bước 4: Lặp lại bƣớc tâm không thay đổi END Để xác định trọng tâm cụm tài liệu: Xét cụm văn c, trọng ∑ tâm C cụm c đƣợc tính nhờ vào vector tổng ) văn cụm c: C= | | |c|: số phần tử thuộc tập tài liệu c Trong kỹ thuật phân cụm, trọng tâm cụm đƣợc sử dụng để làm đại diện cho cụm tài liệu Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Cơng nghệ Thơng tin 52 Vấn đề tính tốn độ tƣơng tự cụm tài liệu: Giả sử ta có cụm c1, c2, độ tƣơng tự cụm tài liệu đƣợc tính mức độ “gần nhau” vector trọng tâm C1, C2: Sim(c1,c2)= sim(C1,C2) Ở đây, ta hiểu c1 c2 gồm tài liệu coi cụm gồm phần tử Trong thuật toán k-means, chất lƣợng phân cụm đƣợc đánh giá thông quan hàm ∑ tiêu chuẩn: ∑ , x vector biểu diễn tài liệu, mi trọng tâm cụm, k số cụm, Ci cụm thứ i - Độ phức tạp thuật tốn k-means Trong đó, n số đối tƣợng liệu, k số cụm liệu, d số chiều, r số vòng lặp 3.5 Thực nghiệm Sử dụng phần mềm Orange data mining để thực phân cụm liệu Input: Dữ liệu ban đầu gồm 100 file text có tên file từ file001-file100 Sau chuẩn hóa liệu ban đầu theo cụm: Kinh tế, Chính trị, Khoa học, Cơng nghệ, Giáo dục, giải trí, Y tế (sử dụng file cvs excel để lƣu - trữ) Output: - Dữ liệu đƣợc phân cụm Orange Quá trình phân cụm liệu Orange: Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Cơng nghệ Thơng tin 53 Hình 3-7: Mơ hình phân cụm liệu Orange Hình 3-8: Đƣ liệu chuẩn hóa mơ hình Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Cơng nghệ Thơng tin 54 Hình 3-9: Bảng chuẩn hóa Hình 3-10: Do khoảng cách Euclidean Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 55 Hình 3-11: Phân cụm liệu theo phƣơng pháp phân cụm phân cấp Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thơng tin 56 Hình 3-12: Dữ liệu sau phân cụm phân cấp Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Cơng nghệ Thơng tin 57 Hình 3-13: Phân cụm k-means  Đo khoảng cách Euclidean, cho thấy cụm thuật tốn tối ƣu Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Cơng nghệ Thơng tin 58 Hình 3-14: Biểu diễn liệu sau phân cụm k-means 3.6 Tiểu kết chƣơng Chƣơng tác giả trình bày số hƣớng tiếp cận khai phá Web nhƣ khai phá liệu toàn văn tài liệu Web, khai phá cấu trúc Web, khai phá sử dụng Web số thuật toán đƣợc áp dụng khai phá Web Phần trình bày trình phân cụm liệu phƣơng pháp phân cụm phân cấp phân cụm theo thuật toán k-means, phần mềm mơ hình hóa Orange Data Mining Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 59 Kết luận Tìm hiểu nội dung đề tài giúp em có thêm kiến thức khai phá liệu Web phƣơng pháp áp dụng kỹ thuật phân cụm khai phá liệu Web Đồ án tập chung vào việc tìm hiểu về: Khai phá tri thức, phân cụm liệu, khai phá Web áp dụng kỹ thuật phân cụm khai phá liệu Web Ngồi ra, ta cần xây dựng trƣơng trình thực nghiệm phục vụ cho việc tìm kiếm,lƣu trữ để phân cụm tài liệu Web để phục vụ cho trình tìm kiếm Nhƣng khn khổ đồ án tốt nghiệp, em chƣa kịp xây dựng trƣơng trình, mà thay vào em lập mơ hình phân cụm liệu Web phần mền Orange Trong đó, cơng việc tìm kiếm, lƣu trữ chuẩn hóa liệu đƣợc làm thủ cơng q trình phân cụm liệu đƣợc giải phần mền Orange Hƣớng phát triển: xây dựng hoàn thiện phần mềm đầy đủ chức năng: tìm kiếm, lƣ trữ, phân cụm liệu phục vụ cho việc tìm kiếm Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 60 Tài liệu tham khảo Tài liệu tiếng việt [1] Hoàng Văn Dũng, “Khai phá liệu Web kỹ thuật phân cụm”, Đồ án thạc sĩ, Trƣờng Đại học Sƣ phạm Hà Nội,2007 [2] Cao Chính Nghĩa, “Một số vấn đề phân cụm liệu”, Luận văn thạc sĩ, Trƣờng Đại học Công nghệ, ĐH Quốc gia Hà Nội, 2006 [3] Hoàng Hải Xanh, “Về kỹ thuật phân cụm liệu data mining”, luận văn thạc sĩ, Trƣờng ĐH Quốc Gia Hà Nội, 2005 Tài liệu tiếng anh [4] Bing Liu, Web mining, Springer, 2007 [5] Ho Tu Bao,Knowledge Discovery and Data Mining, 2000 [6] Khoo Khyou Bun, “Topic Trend Detection and Mining in World Wide Web”, A thesis for the degree of PhD, Japan, 2004 Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 61 ... CHƢƠNG 3: KHAI PHÁ D LIỆU WEB Có ba hƣớng tiếp cận khai phá Web Web content, Web structure, Web usage Dữ liệu Web Dữ liệu văn Web Dữ liệu văn Web Dữ liệu cấu trúc Web Dữ liệu tìm kiếm Web Dữ liệu. .. tự Dữ liệu HTML Dữ liệu văn Dữ liệu XML Dữ liệu động Hình ảnh, video Dữ liệu Web Liên kết tĩnh Dữ liệu cấu trúc Web Dữ liệu sử dụng Web Liên kết động Dữ liệu ngƣời dùng Hình 1-3: Phân loại liệu. .. ? ?Kết hợp phƣơng pháp phân cụm khai phá liệu Web? ?? Bố cục đồ án gồm chƣơng: Chƣơng 1: Trình bày kiến thức khám phá tri thức, khai phá liệu, số vấn đề biểu diễn xử lý liệu văn áp dụng khai phá liệu

Ngày đăng: 05/08/2021, 21:25

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Hoàng Văn Dũng, “Khai phá dữ liệu Web bằng kỹ thuật phân cụm”, Đồ án thạc sĩ, Trường Đại học Sư phạm Hà Nội,2007 Sách, tạp chí
Tiêu đề: Khai phá dữ liệu Web bằng kỹ thuật phân cụm
[2] Cao Chính Nghĩa, “Một số vấn đề về phân cụm dữ liệu”, Luận văn thạc sĩ, Trường Đại học Công nghệ, ĐH Quốc gia Hà Nội, 2006 Sách, tạp chí
Tiêu đề: Một số vấn đề về phân cụm dữ liệu
[3] Hoàng Hải Xanh, “Về các kỹ thuật phân cụm dữ liệu trong data mining”, luận văn thạc sĩ, Trường ĐH Quốc Gia Hà Nội, 2005.Tài liệu tiếng anh Sách, tạp chí
Tiêu đề: Về các kỹ thuật phân cụm dữ liệu trong data mining
[5] Ho Tu Bao,Knowledge Discovery and Data Mining, 2000 Sách, tạp chí
Tiêu đề: Knowledge Discovery and Data Mining
[6] Khoo Khyou Bun, “Topic Trend Detection and Mining in World Wide Web”, A thesis for the degree of PhD, Japan, 2004 Sách, tạp chí
Tiêu đề: Topic Trend Detection and Mining in World Wide Web

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w