Luận văn phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

64 5 0
Luận văn phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -o0o - ISO 9001:2008 ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ THÔNG TIN HẢI PHỊNG 2013 Mangh■■ng Ln 123doc Th■a thu■n l■icam s■ tr■ h■u k■t s■ nghi■m t■im■t d■ng s■website mang kho m■i th■ m■ l■i d■n CH■P vi■n nh■ng cho ■■u kh■ng ng■■i NH■N quy■n chia dùng, l■ CÁC s■l■i v■i và■I■U t■t công h■n mua nh■t 2.000.000 ngh■ bán KHO■N cho tàihi■n ng■■i li■u TH■A tài th■ hàng li■u dùng hi■n THU■N ■■u ■ t■t Khi ■■i, Vi■t c■ khách b■n l■nh Nam Chào online hàng v■c: Tác m■ng tr■ khơng tài phong thành b■n khác chun ■■n thành tíngì d■ng, v■i so nghi■p, viên 123doc v■i cơng c■a b■n hồn ngh■ 123doc g■c h■o, thơng B■n và■■ n■p có tin, cao th■ ti■n ngo■i tính phóng vào ng■, Khách trách tài to,kho■n nhi■m thu nh■ c■a ■■i hàng tùy123doc, v■i ý cót■ng th■b■n d■ ng■■i dàng s■ dùng ■■■c tra c■u M■c h■■ng tàitiêu li■u nh■ng hàng m■t■■u quy■n cáchc■a l■i123doc.net sau xác,n■p nhanh ti■n tr■ chóng thành website th■ vi■n tài li■u online l■n nh■t Vi■t Nam, cung c■p nh■ng tài li■u ■■c khơng th■ tìm th■y th■ tr■■ng ngo■i tr■ 123doc.net Nhi■u event thú v■, event ki■m ti■n thi■t th■c 123doc luôn t■o c■ h■i gia t■ng thu nh■p online cho t■t c■ thành viên c■a website Mangh■n Luôn Th■a Xu■t Sau Nhi■u 123doc h■■ng phát thu■n l■i event cam s■ nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chuyên ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thông B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Lnh■n 123doc Sau Th■a Xu■t h■■ng phát thu■n cam nh■n m■t t■k■t s■ t■i ýxác n■m t■■ng d■ng s■ nh■n website mang ■■i, t■o t■l■i c■ng ■■ng d■n 123doc CH■P nh■ng ■■u ■■ng h■ NH■N ■ã quy■n th■ng chia t■ng ki■m CÁC s■s■ l■i b■■c ti■n vàchuy■n ■I■U t■t mua online kh■ng nh■t bán KHO■N sang b■ng cho tài ■■nh ng■■i li■u ph■n tài TH■A v■ li■u hàng thông dùng tríTHU■N hi■u c■a ■■u tin Khi qu■ Vi■t xác khách nh■t, minh Nam Chào hàng uy tài l■nh Tác m■ng tín kho■n tr■ phong v■c cao thành b■n email nh■t tàichuyên ■■n li■u thành b■n Mong v■i nghi■p, viên kinh ■ã 123doc 123doc.net! mu■n ■■ng c■a doanh hoàn mang 123doc kýonline v■i h■o, Chúng l■ivà 123doc.netLink cho Tính ■■ n■p tơi c■ng cao ■■n cung ti■n tính ■■ng th■i vào c■p trách xác tài ■i■m D■ch xãkho■n th■c nhi■m h■itháng V■ m■t s■ c■a (nh■ ■■i ■■■c ngu■n 5/2014; 123doc, v■i ■■■c g■i t■ng tài 123doc v■ mô nguyên b■n ng■■i ■■a t■s■ v■■t d■■i tri dùng ■■■c ch■ th■c m■c ■ây) email M■c h■■ng quý 100.000 cho b■n tiêu báu, b■n, nh■ng ■ã hàng phong l■■t tùy ■■ng ■■u quy■n truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau vuingày, n■p lòng “■i■u giàu ti■n s■ ■■ng tr■ giá Kho■n h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Lnh■n Th■a Xu■t Sau Nhi■u 123doc Mang h■■ng phát thu■n l■i event cam s■ nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thông dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chuyên ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thông B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mơ ngun b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t u■t phát Nhi■u Mang Ln 123doc Th■a Xu■t Sau h■n h■■ng phát thu■n l■i event s■ cam nh■n t■ m■t tr■ t■ h■u ýk■t s■ thú nghi■m t■i ýt■■ng xác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event t■o kho m■i ■■i, t■o t■ c■ng th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■ng ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia ki■m t■ng ki■m dùng, l■ CÁC s■ th■c ti■n s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công online h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N b■ng sang b■ng cho tài ■■nh hi■n tài ng■■i li■u ph■n tài TH■A li■u tài v■ th■ li■u hàng t■o li■u thơng dùng trí hi■u hi■n THU■N hi■u c■ c■a ■■u ■ tin qu■ t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia nh■t, b■n nh■t, minh l■nh Nam t■ng Chào online uy hàng uy tài v■c: l■nh thu Tác tín m■ng tín kho■n tr■ cao nh■p khơng tài phong v■c cao thành b■n nh■t email nh■t tài online khác chuyên ■■n li■u thành tín Mong b■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã mu■n t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n mang hoàn mang ngh■ 123doc ký g■c online thành v■i l■i h■o, Chúng l■i thông B■n cho 123doc.netLink cho viên Tính ■■ n■p có c■ng tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i ■■ng tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác xã tài ■i■m D■ch xã to,h■i kho■n th■c nhi■m h■i thum■t tháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ngu■n ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cótài g■i t■ng th■ tài 123doc nguyên v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t tri d■■i tri dùng ■■■c ch■ th■c tra th■c m■c ■ây) email c■u quý M■c h■■ng quý 100.000 cho tài báu, b■n tiêu báu, li■u b■n, nh■ng phong ■ã hàng phong m■t l■■t tùy ■■ng ■■u phú, quy■n cách truy thu■c phú, ky, c■a c■p ■a ■a l■i b■n vào d■ng, 123doc.net m■i d■ng, sau xác, vuingày, n■p giàu lòng “■i■u nhanh giàu ti■n giá s■ ■■ng tr■ giá Kho■n chóng h■u tr■ thành tr■ nh■p ■■ng 2.000.000 website ■■ng Th■a th■ email th■i vi■n th■i Thu■n mong c■a thành mong tài v■ li■u mu■n viên mu■n S■ online ■■ng D■ng t■o click t■o l■n ■i■u ký, D■ch ■i■u vào nh■t l■t link ki■n ki■n V■” vào Vi■t 123doc cho top sau cho Nam, cho 200 ■ây cho ■ã cung các (sau g■i users website c■p users ■âynh■ng có ■■■c cóph■ thêm thêm tài bi■n g■i thu thu li■u t■t nh■p nh■t nh■p ■■c T■it■i Chính khơng t■ng Chính Vi■tth■i vìth■ Nam, vìv■y v■y ■i■m, tìm 123doc.net t■123doc.net th■y l■chúng tìm ki■m tơi th■ racó ■■i thu■c ■■i tr■■ng th■ nh■m nh■m c■p top ngo■i ■áp 3nh■t ■áp Google ■ng tr■ ■KTTSDDV ■ng 123doc.net nhu Nh■n nhuc■u c■u ■■■c chia theo chias■ quy■t danh s■tàitài hi■u li■u li■uch■t ch■t c■ng l■■ng l■■ng ■■ng vàvàki■m bình ki■mch■n ti■n ti■nonline online website ki■m ti■n online hi■u qu■ uy tín nh■t Nhi■u Mang Luôn 123doc Th■a Xu■t Sau h■n h■■ng phát thu■n l■i event s■ cam nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chun ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n cơng ■■ng c■a c■ doanh b■n hồn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thơng B■n 123doc.netLink cho viên Tính ■■ n■p có tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -o0o - PHÂN CỤM DỮ LIỆU BÀI TOÁN VÀ CÁC GIẢI THUẬT THEO TIẾP CẬN PHÂN CẤP ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin HẢI PHÒNG - 2013 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -o0o - PHÂN CỤM DỮ LIỆU BÀI TOÁN VÀ CÁC GIẢI THUẬT THEO TIẾP CẬN PHÂN CẤP ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thông tin Giáo viên hướng dẫn: PGS.TS Nguyễn Thanh Tùng Sinh viên: Phạm Ngọc Sâm Mã sinh viên: 1351010049 HẢI PHÒNG - 2013 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -o0o CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc -o0o - NHIỆM VỤ ĐỀ TÀI TỐT NGHIỆP Sinh viên: Phạm Ngọc Sâm Mã sinh viên: 1351010049 Lớp: CT1301 Ngành: Công nghệ thông tin Tên đề tài: Phân cụm liệu: Bài toán giải thuật theo tiếp cận phân cấp NHIỆM VỤ ĐỀ TÀI Nội dung yêu cầu cần giải nhiệm vụ đề tài tốt nghiệp a Nội dung: - Thế khai phá liệu, khám phá tri thức từ sở liệu - Kỹ thuật phân cụm liệu khai phá liệu, phân loại thuật toán phân cụm lĩnh vực ứng dụng tiêu biểu - Một số thuật toán phân cụm theo tiếp cận phân cấp: Thuật toán CURE, thuật tốn BIRCH Xây dựng chương trình demo số thuật tốn phân cụm phân cấp trình bày b Các yêu cầu cần giải quyết: - Về lý thuyết: Nắm nội dung 1-3 mục a - Về thực hành: Xây dựng chương trình demo số thuật toán phân cụm phân cấp trình bày Các số liệu cần thiết để thiết kế, tính tốn Địa điểm thực tập tốt nghiệp CÁN BỘ HƢỚNG DẪN ĐỀ TÀI TỐT NGHIỆP Ngƣời hƣớng dẫn thứ nhất: Họ tên: Nguyễn Thanh Tùng Học hàm, học vị: Phó giáo sư, Tiến sĩ Cơ quan công tác: Nguyên cán nghiên cứu Viện Khoa học Công nghệ Việt Nam Nội dung hướng dẫn: Đề tài tốt nghiệp giao ngày 25 tháng 03 năm 2013 Yêu cầu hoàn thành xong trước ngày 25 tháng 06 năm 2013 Đã nhận nhiệm vụ: Đ.T.T.N Sinh viên Đã nhận nhiệm vụ: Đ.T.T.N Người hướng dẫn Đ.T.T.N Phạm Ngọc Sâm PGS.TS Nguyễn Thanh Tùng Hải phòng, ngày……tháng….năm 2013 HIỆU TRƯỞNG GS.TS.NGƢT Trần Hữu Nghị PHẦN NHẬN XÉT CỦA CÁN BỘ HƢỚNG DẪN Tinh thần thái độ sinh viên trình làm đề tài tốt nghiệp: Đánh giá chất lượng khóa luận (so với nội dung yêu cầu đề nhiệm vụ Đ.T T.N mặt lý luận, thực tiễn, tính tốn số liệu…): Cho điểm cán hướng dẫn (ghi số chữ): Hải phòng, ngày …tháng …năm 2013 Cán hướng dẫn (Ký ghi rõ họ tên) PHIẾU NHẬN XÉT TÓM TẮT CỦA NGƢỜI CHẤM PHẢN BIỆN Đánh giá chất lượng đề tài tốt nghiệp mặt thu thập phân tích số liệu ban đầu, sở lý luận chọn phương án tối ưu, cách tính tốn chất lượng thuyết minh vẽ, giá trị lý luận thực tiễn đề tài ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… Cho điểm cán phản biện (ghi số chữ) ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… Hải Phòng, ngày…tháng … năm 2013 Cán phản biện LỜI CẢM ƠN Với lịng biết ơn sâu sắc, tơi xin chân thành cảm ơn thầy giáo PGS.TS Nguyễn Thanh Tùng định hướng giúp đỡ tơi tận tình suốt q trình làm khóa luận Tơi xin chân thành cảm ơn thầy, cô giáo khoa Công nghệ thông tin truyền dạy kiến thức thiết thực suốt q trình học, đồng thời tơi xin cảm ơn nhà trường tạo điều kiện tốt cho hồn thành khóa luận Trong phạm vi hạn chế khóa luận tốt nghiệp, kết thu cịn q trình làm viêc khó tránh khỏi thiếu sót, tơi mong nhận góp ý thầy giáo bạn Hải phòng, ngày 25 tháng 06 nắm 2013 Sinh viên Phạm Ngọc Sâm DANH MỤC HÌNH VÀ CÁC CHỮ VIẾT TẮT Hình 1.1: Các bước thực q trình khai phá liệu Hình 2.1: Mơ vấn đề phân cụm liệu Hình 2.2 2.7: Quá trình phân cụm từ “bắt đầu” “kết thúc” Hình 2.8: Bảng tham số, Hình 2.9: Một số hình dạng cụm liệu khám phá kỹ thuật PCDL dựa mật độ Hình 2.10 : Mơ hình cấu trúc liệu lưới Hình 2.11: Phân cụm phân cấp Top-down Bottom-up Hình 2.12: Xác định CF Hình 2.13: Ví dụ CF Hình 2.14  2.19: Mơ tả q trình chèn mục vào CF Hình 2.20: Cụm liệu khai phá thuật tốn CURE Hình 2.21: Kết q trình phân cụm CSDL: Cơ sở liệu KDD: Khai phá tri thức sở liệu - Knowledge Discovery in Databases PCDL: Phân cụm liệu CF: Cluster Features BIRCH (Balanced Iterative Reducing and Clustering Using Hierarchies) CURE (Clustering Using Representatives) Bƣớc 2: Nếu CF thời khơng có đủ nhớ tiến hành dựng CF nhỏ hơn: kích thước CF điều khiển tham số T việc chọn giá trị lớn cho hịa nhập số cụm thành cụm, điều làm cho CF nhỏ Bước không cần yêu cầu bắt đầu đọc liệu lại từ đầu đảm bảo hiệu chỉnh liệu nhỏ Bƣớc 3:Thực phân cụm: nút CF lưu giữ đại lượng thống kê cụm Trong bước này, BIRCH sử dụng đại lượng thống kê để áp dụng số kĩ thuật phân cụm ví dụ k-means tạo khởi tạo cho phân cụm Bƣớc 4: Phân phối lại đối tượng liệu cách dùng đối tượng trọng tâm cho cụm khám phá từ bước 3: bước tùy chọn để duyệt lại tập liệu gán nhãn lại cho đối tượng liệu tới trọng tâm gần Bước nhằm để gán nhãn cho liệu khởi tạo loại bỏ đối tượng ngoại lai Khái quát thuật toán phân cụm BIRCH Dữ liệu Bước 1: Xây dựng CF Cây CF ban đầu Bước (tùy chọn): Xây dựng CF nhỏ CF thời khơng có đủ nhớ Cây CF nhỏ Bước 3: Thực phân cụm Cụm tốt Bước (tùy chọn): Làm mịn Cụm tốt 42 Dòng điều khiển Bƣớc Bắt đầu với CF t1 T ban đầu Tiếp tục quét liệu chèn vào t1 Kết thúc quét liệu Tràn nhớ Kết quả? (1) Tăng T (2) Tái thiết CF t2 T từ CF t1: mục (entry) t1 outlier tiềm ẩn đĩa trống (3) t1 t2 Nếu không Hết dung lượng đĩa Kết quả? Tái hấp thụ giá trị ngoại lai tiềm ẩn vào t1 Tái hấp thụ giá trị ngoại lai tiềm ẩn vào t1 Các vấn đề cần quan tâm Bƣớc 1: – Xây dựng lại CF – Giá trị ngưỡng T – Outlier-handling Option – Delay Split Option 1) Xây dựng lại CF Trong bước ta sử dụng tất mục CF cũ để xây dựng lại CF với ngưỡng lớn Trong trình xây dựng lại ta cần điểu chỉnh đường tới nút Đường tới nút tương ứng với đường tới nút 43 Thuật toán xây dựng lại thuật tốn qt giải phóng đường cũ, tạo đường cho Kích thước phải nhỏ trước Việc chuyển từ cũ sang cần thêm h trang nhớ, h chiều cao cũ Thuật toán tái xây dựng Bƣớc 1: Bắt đầu xây dựng lại từ đường bên trái cũ Đối với đường dẫn cũ (OldCurrentPath-OCP), tạo tương ứng đường dẫn (NewCurrentPath-NCUP) (không lớn hơn) Tìm đường gần (NewClosestPath -NCLP) cho mục OCP N Y NCLP trước NCUP ? N Mục phù hợp NCLP ? Y Y Chèn mục vào NCUP Chèn mục vào NCUP Không gian trống OCP NCUP N Y Hoàn thành? 44 Kết thúc Xây dựng lại CF 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 (1,1) (1,2) (1,3) (2,1) (2,2) (2,3) 1 1 2 2 3 3 4 Giải phóng nút cũ (3,1) (3,2) (3,4) OldCurrentPath (OCP) NewClosestPath (NCLP) 45 NewCurrentPath(NCUP) 2) Giá trị ngưỡng T Để tăng ngưỡng ta sử dụng phương pháp heuristic Lựa chọn giá trị ngưỡng cho số lượng điểm liệu quét giá trị ngưỡng mới: Phương pháp 1: Tìm nút đơng hai mục gần sáp nhập ngưỡng Phương pháp 2: Giả sử lượng chiếm đóng cụm tăng tuyến tính với điểm liệu loạt cặp giá trị: số lượng điểm liệu khối lượng => khối lượng (một điểm liệu mới, sử dụng tối thiểu hồi quy tuyến tính) => ngưỡng Sử dụng số phương pháp heuristic để điều chỉnh hai ngưỡng chọn 3) Outlier-handling option Outlier là giá trị ngoại lai hay nhiễu, CF đóng vai trị mục mật độ thấp, đánh giá quan trọng mơ hình phân nhóm tổng thể Sử dụng số không gian đĩa để xử lý giá trị ngoại lai Khi xây dựng lại CF, mục cũ ghi vào đĩa coi outlier tiềm Điều làm giảm kích thước CF Một outlier không đủ tiêu chuẩn khi: Tăng giá trị ngưỡng; Sự thay đổi việc phân phối nhiều liệu đọc Quét outlier tiềm để hấp thu mà không gây phát triển q kích thước cây: Hết khơng gian đĩa Tất điểm liệu quét 4) Delay-Split option Khi hết nhớ Có thể có nhiều điểm liệu phù hợp CF Chúng ta tiếp tục đọc liệu điểm ghi điểm liệu cần chia nút vào đĩa hết không gian đĩa Ưu điểm phương pháp nhiều điểm liệu phù hợp trước phải xây dựng lại 46 Đánh giá thuật toán BIRCH Với cấu trúc CF sử dụng, BIRCH có tốc độ thực phân cụm liệu nhanh áp dụng tập liệu lớn, đặc biệt, BIRCH hiệu áp dụng với tập liệu tăng trưởng theo thời gian BIRCH duyệt toàn liệu lần với lần quét thêm tùy chon, nghĩa độ phức tạp O(n), với n đối tượng liệu Thuật toán kết hợp cụm gần xây dựng lại CF, nhiên nút CF lưu trữ số hữu hạn kích thước Hạn chế: Thuật tốn khơng xử lý tốt cụm khơng có hình dạng cầu, sử dụng khái niệm bán kính đường kính để kiểm sốt ranh giới cụm chất lượng cụm khám phá không tốt Nếu BIRCH sử dụng khoảng cách Eucle, thực tốt với liệu số Mặc khác, tham số vào T có ảnh hưởng lớn tới kích thước tính tự nhiên cụm Việc ép đối tượng liệu làm cho đối tượng cụm đối tượng kết thúc cụm khác, đối tượng gần hút cụm khác chúng biểu diễn cho thuật toán theo thứ tự khác BIRCH khơng thích hợp với liệu đa chiều 2.6.2 Thuật toán CURE CURE (Clustering Using Representatives – Phân cụm liệu sử dụng điểm đại diện) thuật toán sử dụng chiến lược lên (Botton-Up) kĩ thuật phân cụm phân cấp Trong hầu hết thuật toán thực phân cụm với cụm hình cầu kích thước tương tự, không hiệu xuất phần tử ngoại lai Thuật toán định nghĩa số cố định điểm đại diện nằm rải rác toàn không gian liệu chọn để mô tả cụm hình thành Các điểm tạo trước hết lựa chọn đối tượng nằm rải rác cụm sau “co lại” di chuyển chúng trung tâm cụm nhân tố co cụm Quá trình lặp lại q trình này, đo tỷ lệ gia tăng cụm Tại bước thuật toán, hai cụm có cặp điểm đại diện gần (mỗi điểm cặp thuộc cụm khác nhau) hịa nhập Như vậy, có nhiều điểm đại diện cụm cho phép CURE khám phá cụm có hình dạng khơng phải hình cầu Việc co lại cụm có tác dụng làm giảm tác động phần tử ngoại lai Như vậy, thuật tốn có khả xử lý tốt trường hợp có phần tử ngoại lai làm cho hiệu với 47 hình dạng khơng phải hình cầu kích thước độ rộng biến đổi Hơn nữa, tỷ lệ tốt với CSDL lớn mà không làm giảm chất lượng phân cụm Đặt c điểm đại diện cho cụm, chọn c rải rác cho nắm bắt hình dạng vật lý hình học cụm Các điểm sau “co lại” di chuyển chúng trung tâm cụm nhân tố co cụm α k { u:=extract_min(Q) v:=u.closest delete(Q,v) w:=merge(u,v) delete_rep(T,u); delete_rep(T,v); insert_rep(T,w) w.closest:=x /* x is an arbitrary cluster in Q */ for each x Q do{ if dist (w,x) < dist(w,w.closest) w.closest:=x if x.closest is either u or v { if dist(x,x.closest) < dist(x,w) x.closest:=closest_cluster(T,x,dist(x,w)) else x.closest:=w relocate(Q,x) } else if dist(x,x.closest)> dist(x,w) { x.closest:=w relocate(Q,x) } } insert(Q,w) } End Procedure merge(u,w) Begin w:=u  v w.mean:= u u.mean u v v.mean v tmpSet:=∅ for i:=1 to c { maxDist:=0 foreach point p in cluster w { if i=1 minDist:=dist(p,w.mean) else minDist:=min{dist(p,q):q tmpSet} if (minDist ≥ maxDist) { maxDist:=mainDist maxPoint:=p 50 } tmpSet:=tmpSet  { maxPoint} } Foreach point p in tmpSet w.rep:=w.rep  {p+α*(w.mean-p)} return w End Độ phức tạp tính tốn thuật tốn CURE O(n2log(n)) Độ phức tạp không gian O (n) việc sử dụng kd-tree heap CURE thuật toán tin cậy việc khám phá cụm với hình thù áp dụng tốt liệu có phần tử ngoại lai tập liệu hai chiều Tuy nhiên, lại nhạy cảm với tham số số đối tượng đại diện, tỉ lệ co phần tử đại Đánh giá thuật toán CURE Ƣu điểm: Bằng cách sử dụng đại diện cho cụm, CURE có khả khám phá cụm có hình thù kích thước tập liệu lớn Việc co đối tượng đại diện có tác dụng làm giảm tác động đối tượng ngoại lai Do CURE xử lý tốt đối tượng ngoại lai Tốc độ thực CURE nhanh O(N) Nhƣợc điểm: CURE dễ bị ảnh hưởng tham số cho người dùng cỡ mẫu, số cụm mong muốn 2.10 Kết luận chƣơng Khai liệu vấn đề cần thiết sống Từ khai phá liệu phát tri thức Có nhiều cách để người khai phá liệu cách phân cụm liệu Chương trình bày khái quát kỹ thuật phân cụm liệu: phát biểu toán, kiểu liệu thường gặp, độ đo đo khoảng cách, độ tương tự, phương pháp tiếp cận toán phân cụm liệu Phương pháp tiếp cận phân cấp với thuật toán CURE BIRCH nội dung chương trình bày chi tiết 51 CHƢƠNG 3: CHƢƠNG TRÌNH DEMO Để có nhìn trực quan thuật tốn phân cụm phân cấp em xin trình bày chương trình demo đơn giản thuật toán CURE 3.1 Bài toán lƣu đồ thuật toán Input: Mảng S chứa điểm không gian chiều, điểm đặc trưng thuộc tính (x,y), k số cụm cần chia Output: Các nhóm (cụm) điểm, điểm gần gom vào nhóm với mục tiêu k cụm theo thuật toán CURE Lƣu đồ thuật toán Begin Input S,k T=build_kd_tree(S) Q=build_heap(S) Size(Q)>k u=extract_min(Q) delete(Q,v) delete_rep(T,u) insert_rep(T,w) w.closest = = u or v False v=u.closest w=merge(u,v) delete_rep(T,v) w.closest=x x Q dist(x,x.closest) > dist(x,w) dist(w,x)

Ngày đăng: 05/08/2021, 21:15

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan