Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 71 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
71
Dung lượng
1,45 MB
Nội dung
Đồ án tốt nghiệp: Khai phá liệu từ website việc làm LỜI CẢM ƠN Em xin chân thành cảm ơn thầy giáo, cô giáo ngành Công nghệ thơng tin – Đại Học Dân Lập Hải Phịng, tận tâm giảng dạy kiến thức năm học qua với động viên từ gia đình bạn bè chố gắng thân Đặc biệt em xin bày tỏ biết ơn sâu sắc đến thầy giáo Tiến sĩ Phùng Văn Ổn, ngƣời tận tình hƣớng dẫn, động viên em thực đồ án Rất mong đóng góp ý kiến từ tất thầy cô, bạn bè đồng nghiệp để đồ án phát triển hồn thiện đồ án Hải phòng, tháng năm 2010 Ngƣời thực Nguyễn Ngọc Châu Mangh■■ng Luôn 123doc Th■a thu■n l■icam s■ tr■ h■u k■t s■ nghi■m t■im■t d■ng s■website mang kho m■i th■ m■ l■i d■n CH■P vi■n nh■ng cho ■■u kh■ng ng■■i NH■N quy■n chia dùng, l■ CÁC s■l■i v■i và■I■U t■t công h■n mua nh■t 2.000.000 ngh■ bán KHO■N cho tàihi■n ng■■i li■u TH■A tài th■ hàng li■u dùng hi■n THU■N ■■u ■ t■t Khi ■■i, Vi■t c■ khách b■n l■nh Nam Chào online hàng v■c: Tác m■ng tr■ không tài phong thành b■n khác chun ■■n thành tíngì d■ng, v■i so nghi■p, viên 123doc v■i cơng c■a b■n hồn ngh■ 123doc g■c h■o, thơng B■n và■■ n■p có tin, cao th■ ti■n ngo■i tính phóng vào ng■, Khách trách tài to,kho■n nhi■m thu nh■ c■a ■■i hàng tùy123doc, v■i ý cót■ng th■b■n d■ ng■■i dàng s■ dùng ■■■c tra c■u M■c h■■ng tàitiêu li■u nh■ng hàng m■t■■u quy■n cáchc■a l■i123doc.net sau xác,n■p nhanh ti■n tr■ chóng thành website th■ vi■n tài li■u online l■n nh■t Vi■t Nam, cung c■p nh■ng tài li■u ■■c khơng th■ tìm th■y th■ tr■■ng ngo■i tr■ 123doc.net Nhi■u event thú v■, event ki■m ti■n thi■t th■c 123doc luôn t■o c■ h■i gia t■ng thu nh■p online cho t■t c■ thành viên c■a website Mangh■n Luôn Th■a Xu■t Sau Nhi■u 123doc h■■ng phát thu■n l■i event cam s■ nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chun ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n cơng ■■ng c■a c■ doanh b■n hồn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thơng B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i không t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Luônh■n 123doc Sau Th■a Xu■t h■■ng phát thu■n cam nh■n m■t t■k■t s■ t■i ýxác n■m t■■ng d■ng s■ nh■n website mang ■■i, t■o t■l■i c■ng ■■ng d■n 123doc CH■P nh■ng ■■u ■■ng h■ NH■N ■ã quy■n th■ng chia t■ng ki■m CÁC s■s■ l■i b■■c ti■n vàchuy■n ■I■U t■t mua online kh■ng nh■t bán KHO■N sang b■ng cho tài ■■nh ng■■i li■u ph■n tài TH■A v■ li■u hàng thơng dùng tríTHU■N hi■u c■a ■■u tin Khi qu■ Vi■t xác khách nh■t, minh Nam Chào hàng uy tài l■nh Tác m■ng tín kho■n tr■ phong v■c cao thành b■n email nh■t tàichuyên ■■n li■u thành b■n Mong v■i nghi■p, viên kinh ■ã 123doc 123doc.net! mu■n ■■ng c■a doanh hoàn mang 123doc kýonline v■i h■o, Chúng l■ivà 123doc.netLink cho Tính ■■ n■p tơi c■ng cao ■■n cung ti■n tính ■■ng th■i vào c■p trách xác tài ■i■m D■ch xãkho■n th■c nhi■m h■itháng V■ m■t s■ c■a (nh■ ■■i ■■■c ngu■n 5/2014; 123doc, v■i ■■■c g■i t■ng tài 123doc v■ mô nguyên b■n ng■■i ■■a t■s■ v■■t d■■i tri dùng ■■■c ch■ th■c m■c ■ây) email M■c h■■ng quý 100.000 cho b■n tiêu báu, b■n, nh■ng ■ã hàng phong l■■t tùy ■■ng ■■u quy■n truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau vuingày, n■p lòng “■i■u giàu ti■n s■ ■■ng tr■ giá Kho■n h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Lnh■n Th■a Xu■t Sau Nhi■u 123doc Mang h■■ng phát thu■n l■i event cam s■ nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chuyên ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thông B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mơ nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t u■t phát Nhi■u Mang Luôn 123doc Th■a Xu■t Sau h■n h■■ng phát thu■n l■i event s■ cam nh■n t■ m■t tr■ t■ h■u ýk■t s■ thú nghi■m t■i ýt■■ng xác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event t■o kho m■i ■■i, t■o t■ c■ng th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■ng ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia ki■m t■ng ki■m dùng, l■ CÁC s■ th■c ti■n s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công online h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N b■ng sang b■ng cho tài ■■nh hi■n tài ng■■i li■u ph■n tài TH■A li■u tài v■ th■ li■u hàng t■o li■u thơng dùng trí hi■u hi■n THU■N hi■u c■ c■a ■■u ■ tin qu■ t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia nh■t, b■n nh■t, minh l■nh Nam t■ng Chào online uy hàng uy tài v■c: l■nh thu Tác tín m■ng tín kho■n tr■ cao nh■p không tài phong v■c cao thành b■n nh■t email nh■t tài online khác chuyên ■■n li■u thành tín Mong b■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã mu■n t■t 123doc 123doc.net! v■i mu■n cơng ■■ng c■a c■ doanh b■n mang hồn mang ngh■ 123doc ký g■c online thành v■i l■i h■o, Chúng l■i thơng B■n cho 123doc.netLink cho viên Tính ■■ n■p có c■ng tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i ■■ng tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác xã tài ■i■m D■ch xã to,h■i kho■n th■c nhi■m h■i thum■t tháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ngu■n ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cótài g■i t■ng th■ tài 123doc nguyên v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t tri d■■i tri dùng ■■■c ch■ th■c tra th■c m■c ■ây) email c■u quý M■c h■■ng quý 100.000 cho tài báu, b■n tiêu báu, li■u b■n, nh■ng phong ■ã hàng phong m■t l■■t tùy ■■ng ■■u phú, quy■n cách truy thu■c phú, ky, c■a c■p ■a ■a l■i b■n vào d■ng, 123doc.net m■i d■ng, sau xác, vuingày, n■p giàu lòng “■i■u nhanh giàu ti■n giá s■ ■■ng tr■ giá Kho■n chóng h■u tr■ thành tr■ nh■p ■■ng 2.000.000 website ■■ng Th■a th■ email th■i vi■n th■i Thu■n mong c■a thành mong tài v■ li■u mu■n viên mu■n S■ online ■■ng D■ng t■o click t■o l■n ■i■u ký, D■ch ■i■u vào nh■t l■t link ki■n ki■n V■” vào Vi■t 123doc cho top sau cho Nam, cho 200 ■ây cho ■ã cung các (sau g■i users website c■p users ■âynh■ng có ■■■c cóph■ thêm thêm tài bi■n g■i thu thu li■u t■t nh■p nh■t nh■p ■■c T■it■i Chính khơng t■ng Chính Vi■tth■i vìth■ Nam, vìv■y v■y ■i■m, tìm 123doc.net t■123doc.net th■y l■chúng tìm ki■m tơi th■ racó ■■i thu■c ■■i tr■■ng th■ nh■m nh■m c■p top ngo■i ■áp 3nh■t ■áp Google ■ng tr■ ■KTTSDDV ■ng 123doc.net nhu Nh■n nhuc■u c■u ■■■c chia theo chias■ quy■t danh s■tàitài hi■u li■u li■uch■t ch■t c■ng l■■ng l■■ng ■■ng vàvàki■m bình ki■mch■n ti■n ti■nonline online website ki■m ti■n online hi■u qu■ uy tín nh■t Nhi■u Mang Ln 123doc Th■a Xu■t Sau h■n h■■ng phát thu■n l■i event s■ cam nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thông dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chun ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thơng B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Đồ án tốt nghiệp: Khai phá liệu từ website việc làm MỤC LỤC LỜI CẢM ƠN MỞ ĐẦU Chƣơng 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC Tổng quan khai phá liệu I Tổ chức khai thác sở liệu truyền thống Tổng quan kỹ thuật phát tri thức khai phá liệu (KDD – Knowledge Discovery and Data Mining) Ứng dụng luật kết hợp vào khai phá liệu 10 II Lý thuyết luật kết hợp 10 Các đặc trƣng luật kết hợp 19 Một số giải thuật khai phá tập phổ biến 22 Phát sinh luật từ tập phổ biến 43 Đánh giá, nhận xét 46 Chƣơng 2: MƠ HÌNH TÌM KIẾM THÔNG TIN 47 Tìm kiếm thơng tin 47 Mơ hình Search engine 48 2.1 Search engine 48 2.2 Agents 49 Hoạt động Search engine 49 3.1 Hoạt động robot 50 3.2 Duyệt theo chiều rộng 50 3.3 Duyệt theo chiều sâu 51 3.4 Độ sâu giới hạn 52 3.5 Vấn đề tắc nghẽn đƣờng chuyền 52 3.6 Hạn chế robot 53 3.7 Phân tích liên kết trang web 53 3.8 Nhận dạng mã tiếng việt 53 Chƣơng 3: ỨNG DỤNG THỬ NGHIỆM KHAI PHÁ DỮ LIỆU TÍCH HỢP TỪ CÁC WEBSITE TUYỂN DỤNG 55 Bài toán: 55 1.1 Phát biểu toán: 55 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm 1.2 Một số website tìm việc làm tiểng việt nam: 55 1.3 Thiết kế sở liệu: 58 1.4 Đặc tả liệu: 61 1.5 Minh họa chƣơng trình 67 1.6 Phân tích đánh giá 69 1.7 Hƣớng phát triển 69 KẾT LUẬN 70 TÀI LIỆU THAM KHẢO 71 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm MỞ ĐẦU Trong năm gần đây, việc nắm bắt đƣợc thông tin đƣợc coi sở hoạt động sản xuất, kinh doanh Các nhân tổ chức thu thập hiểu đƣợc thông tin, hành động dựa thông tin đƣợc kết xuất từ thơng tin có đạt đƣợc thành công hoạt động Sự tăng trƣởng vƣợt bậc sở liệu (CSDL) sống nhƣ: thƣơng mại, quản lý làm nảy sinh thúc đẩy phát triển kỹ thuật thu thập, lƣu trữ, phân tích khai phá liệu… khơng phép tốn đơn giản thơng thƣờng nhƣ: phép đếm, thống kê… mà địi hỏi cách xử lý thông minh hơn, hiệu Các kỹ thuật cho phép ta khai thác đƣợc tri thức hữu dụng từ CSDL (lớn) đƣợc gọi kỹ thuật Khai phá liệu (datamining) Đồ án nghiên cứu khái niệm khai phá liệu, luật kết hợp ứng dụng thuật toán khai phá luật kết hợp CSDL lớn Cấu trúc đồ án đƣợc trình bày nhƣ sau: CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC Trình bày kiến thức tổng quan khai thác xử lý thông tin Khái niệm luật kết hợp phƣơng pháp khai phá luật kết hợp Trình bày thuật tốn Apriori số thuật tốn khai phá luật kết hợp CHƢƠNG 2: MƠ HÌNH TÌM KIẾM THƠNG TIN Trình bày thành phân search engine Trình bày nguyên lý hoạt động search engine số giải thuật tìm kiếm search engine CHƢƠNG 3: ỨNG DỤNG, THỬ NGHIỆM KHAI PHÁ DỮ LIỆU VIỆC LÀM TÍCH HỢP TỪ CÁC WEBSITE TUYỂN DỤNG Nội dung chƣơng áp dụng kỹ thuật khai phá liệu vào toán tìm xu hƣớng chọn ngành nghề ứng viên tuyển dụng của doanh nghiệp Cuối kết luận lại kết đạt đƣợc đề tài hƣớng phát triển tƣơng lai Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC I Tổng quan khai phá liệu Tổ chức khai thác sở liệu truyền thống Việc dùng phƣơng tiện tin học để tổ chức khai thác sở liệu (CSDL ) đƣợc phát từ năm 60 kỷ trƣớc Từ nay, nhiều CSDL đƣợc tổ chức, phát triển khai thác quy mô lĩnh vực hoạt động ngƣời xã hội Theo nhƣ đánh giá cho thấy, lƣợng thông tin giới sau 20 tháng lại tăng lên gấp đôi Kích thƣớc số lƣợng CSDL chí cịn tăng nhanh Với phát triển công nghệ điện tử, phát triển mạnh mẽ công nghệ phần cứng tạo nhớ có dung lƣợng lớn, xử lý có tốc độ cao với phát triển hệ thống viễn thông, ngƣời ta xây dựng hệ thống thông tin nhằm tự động hoá hoạt động ngƣời Điều tạo dòng liệu tăng lên khơng ngừng hoạt động đơn giản nhƣ gọi điện thoại, tra cứu sách thƣ viện, đƣợc thực thơng qua máy tính Cho đến nay, số lƣợng CSDL trở nên khổng lồ bao gồm CSDL cực lớn cỡ gigabytes chí terabytes lƣu trữ liệu kinh doanh ví dụ nhƣ liệu thơng tin khác hàng , liệu bán hàng, liệu tài khoản, Nhiều hệ quản trị CSDL mạnh với công cụ phong phú thuận tiện giúp ngƣời khai thác có hiệu nguồn tài ngun liệu Mơ hình CSDL quan hệ ngơn ngữ vấn đáp chuẩn (SQL) có vai trị quan trọng việc tổ chức khai thác CSDL Cho đến nay, không tổ chức sử dụng tin học công việc mà không sử dụng hệ quản trị CSDL hệ công cụ báo cáo, ngôn ngữ hỏi đáp nhằm khai thác CSDL phục vụ cho hoạt động tác nghiệp Cùng với việc tăng không ngừng khối lƣợng liệu, hệ thống thông tin đƣợc chun mơn hố, phân chia theo lĩnh vực ứng dụng nhƣ sản xuất, tài chính, hoạt động kinh doanh, Nhƣ bên cạnh chức khai thác liệu có tính chất tác nghiệp, thành cơng cơng việc khơng cịn suất hệ thống thơng tin mà tính linh hoạt sẵn sàng đáp lại yêu cầu thực tế, CSDL cần đem lại “tri thức” liệu Các định cần phải có nhanh tốt phải xác dựa liệu sẵn có khối lƣợng liệu sau 20 tháng lại tăng gấp đôi làm ảnh hƣởng đến thời gian định nhƣ khả hiểu hết đƣợc nội dung liệu Lúc này, mơ hình CSDL truyền thống ngơn ngữ SQL cho thấy khơng có khả thực cơng việc Để lấy thơng tin có tính “tri thức” khối liệu khổng lồ này, ngƣời ta tìm Đồ án tốt nghiệp: Khai phá liệu từ website việc làm kỹ thuật có khả hợp liệu từ hệ thống giao dịch khác nhau, chuyển đổi thành tập hợp CSDL ổn định, có chất lƣợng đƣợc sử dụng cho riêng vài mục đích Các kỹ thuật gọi chung kỹ thuật tạo kho liệu (data warehousing) môi trƣờng liệu có đƣợc gọi kho liệu (data warehouse) Nhƣng có kho liệu thơi chƣa đủ để có tri thức Các kho liệu đƣợc sử dụng theo số cách nhƣ: Theo cách khai thác truyền thống: tức kho liệu đƣợc sử dụng để khai thác thông tin công cụ truy vấn báo cáo Các kho liệu đƣợc sử dụng để hỗ trợ cho phân tích trực tuyến (OLAPOnLine Analytical Processing): Việc phân tích trực tuyến có khả phân tích liệu, xác định xem giả thuyết hay sai Tuy nhiên, phân tích trực tuyến lại khơng có khả đƣa giả thuyết Công nghệ khai phá liệu (data mining) đời đáp ứng đòi hỏi khoa học nhƣ hoạt động thực tiễn Đây ứng dụng kho liệu Tổng quan kỹ thuật phát tri thức khai phá liệu (KDD – Knowledge Discovery and Data Mining) 2.1 Phát tri thức khai phá liệu gì? Nếu cho điện tử sóng điện tử chất cơng nghệ điện tử truyền thống liệu, thơng tin tri thức tiêu điểm lĩnh vực nghiên cứu ứng dụng phát tri thức (Knowledge Discovery) khai phá liệu (Data Mining) Thông thƣờng coi liệu nhƣ dãy bit, số ký hiệu, “đối tƣợng” với ý nghĩa đƣợc gửi cho chƣơng trình dƣới dạng định Chúng ta sử dụng bit để đo lƣờng thơng tin xem nhƣ liệu đƣợc lọc bỏ dƣ thừa, đƣợc rút gọn tới mức tối thiểu để đặc trƣng cách cho liệu Chúng ta xem tri thức nhƣ thơng tin tích hợp, bao gồm kiện mối quan hệ chúng Các mối quan hệ đƣợc hiểu ra, đƣợc phát hiện, đƣợc học Nói cách khác, tri thức đƣợc coi liệu có độ trừu tƣợng tổ chức cao Phát tri thức sở liệu qui trình nhận biết mẫu mơ hình liệu với tính năng: hợp thức, mới, khả ích, hiểu đƣợc Còn khai thác liệu bƣớc qui trình phát tri thức gồm có thuật toán khai thác liệu chuyên dùng dƣới số qui định Đồ án tốt nghiệp: Khai phá liệu từ website việc làm hiệu tính tốn chấp nhận đƣợc để tìm mẫu mơ hình liệu Nói cách khác, mục đích phát tri thức khai phá liệu tìm mẫu và/hoặc mơ hình tồn sở liệu nhƣng bị che khuất hàng núi liệu Định nghĩa: “KDD q trình khơng tầm thƣờng nhận mẫu có giá trị, mới, hữu ích tiềm hiểu đƣợc liệu” Còn nhà thống kê xem Khai phá liệu nhƣ qui trình phân tích đƣợc thiết kế để thăm dò lƣợng cực lớn liệu nhằm phát mẫu thích hợp và/hoặc mối quan hệ mang tính hệ thống biến sau hợp thức hố kết tìm đƣọc cách áp dụng mẫu phát đƣợc cho tập liệu Qui trình bao gồm ba giai đoạn bản: thăm dị, xây dựng mơ hình định nghĩa mẫu, hợp thức/kiểm chứng 2.2 Quy trình phát tri thức Qui trình phát tri thức đƣợc mơ tả tóm tắt Hình 1: Hình 1: trình phát tri thức Bƣớc thứ nhất: Hình thành, xác định định nghĩa tốn Là tìm hiểu lĩnh vực ứng dụng từ hình thành tốn, xác định nhiệm vụ cần phải hoàn thành Bƣớc định cho việc rút đƣợc tri thức hữu ích cho phép chọn phƣơng pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu Bƣớc thứ hai: Thu thập tiền xử lý liệu Là thu thập xử lý thơ, cịn đƣợc gọi tiền xử lý liệu nhằm loại bỏ nhiễu, xử lý việc thiếu liệu, biến đổi liệu rút gọn liệu cần thiết, bƣớc thƣờng chiếm nhiều thời gian tồn qui trình phát tri thức Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Bƣớc thứ ba: Khai phá liệu, rút tri thức Là khai phá liệu, hay nói cách khác trích mẫu và/hoặc mơ hình ẩn dƣới liệu Giai đoạn quan trọng, bao gồm công đoạn nhƣ: chức năng, nhiệm vụ mục đích khai phá liệu, dùng phƣơng pháp khai phá nào? Bƣớc thứ tƣ: Sử dụng tri thức phát đƣợc Là hiểu tri thức tìm đƣợc, đặc biệt làm sáng tỏ mơ tả dự đốn Các bƣớc lặp lặp lại số lần, kết thu đƣợc đƣợc lấy trung bình tất lần thực Tóm lại: KDD trình chiết xuất tri thức từ kho liệu mà khai phá liệu công đoạn quan trọng 2.3 Các phương pháp khai phá liệu KDD bao gồm hai yếu tố quan trọng khơng thể thiếu đƣợc Dự đốn (Prediction) Mơ tả (Description) Dự đốn: Địi hỏi sử dụng vài biến trƣờng để dự đốn thơng tin tiềm ẩn giá trị tƣơng lai biến thuộc tính mà ta quan tâm đến Mơ tả: Tập trung bật lên mơ hình kết mà ngƣời hiểu sâu thơng tin liệu Với hai đích nêu trên, ngƣời ta thƣờng sử dụng phƣơng pháp sau cho khai phá liệu: - Phân lớp, phân loại (Classification): Là việc học hàm ánh xạ từ mẫu liệu vào số lớp đƣợc xác định trƣớc - Hồi qui (Regression): Là việc học hàm ánh xạ từ mẫu liệu thành biến dự đốn có giá trị thực - Phân nhóm (Clustering): Là việc mơ tả chung để tìm tập hay nhóm, loại mơ tả liệu Các nhóm tách phân cấp - Tổng hợp (Summarization): Là công việc lên quan đến phƣơng pháp tìm kiếm mơ tả tập liệu, thƣờng áp dụng việc phân tích liệu có tính thăm dị báo cáo tự động - Mơ hình ràng buộc (Dependency modeling): Là việc tìm kiếm mơ hình mơ tả phụ thuộc biến, thuộc tính theo hai mức: phụ thuộc cục vào cấu trúc mơ hình, phụ thuộc vào thƣớc đo, ƣớc lƣợng định lƣợng Đồ án tốt nghiệp: Khai phá liệu từ website việc làm - Dị tìm biến đổi độ lệch (Change and Deviation Dectection): Chú ý vào thay đổi quan trọng liệu từ giá trị chuẩn đƣợc xác định trƣớc - Biểu diễn mơ hình (Model Representation): Là việc dùng ngơn ngữ L_ Language để mơ tả mẫu mơ hình khai phá đƣợc Mơ tả mơ hình rõ ràng học máy tạo mẫu có mơ hình xác cho liệu Tuy nhiên, mơ hình q lớn khả dự đốn học máy bị hạn chế Nhƣ làm cho việc tìm kiếm phức tạp nhƣ hiểu đƣợc mơ hình khơng đơn giản - Kiểm định mơ hình (Model Evaluation): Là việc đánh giá, ƣớc lƣợng mơ hình chi tiết, chuẩn q trình xử lý phát tri thức với ƣớc lƣợng có dự báo xác hay khơng có thoả mãn sở logic hay không? Ƣớc lƣợng phải đƣợc đánh giá chéo (cross validation) với việc mô tả đặc điểm bao gồm dự báo xác, tính lạ, tính hữu ích, tính hiểu đƣợc phừ hợp với mơ hình Hai phƣơng pháp logic thống kê chuẩn sử dụng mơ hình kiểm định - Phƣơng pháp tìm kiếm (Search Method):Gồm có hai thành phần: (1) – Trong bảng tham biến (phạm vi tìm kiếm tham số) thuật tốn phải tìm kiếm tham số tronng phạm vi chuẩn mơ hình kiểm định tối ƣu hố đƣa tiêu chí (quan sát) liệu biểu diễn mơ hình định (2) – Mơ hình tìm kiếm, xuất nhƣ đƣờng vịng tồn phƣơng pháp tìm kiếm, biểu diễn mơ hình phải thay đổi cho hệ mơ hình phải thay đổi cho hệ gia phả mơ hình phải đƣợc thơng qua 2.4 Các lĩnh vực liên quan đến phát tri thức khai phá liệu Phát tri thức khai phá liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, sở liệu, thuật tốn học, tính tốn song song tốc độ cao, thu thập tri thức cho hệ chuyên gia, quan sát liệu Đặc biệt phát tri thức khai phá liệu gần gũi với lĩnh vực thống kê, sử dụng phƣơng pháp thống kê để mơ hình liệu phát mẫu, luật Ngân hàng liệu (Data Warehousing) cơng cụ phân tích trực tuyến (OLAP) liên quan chặt chẽ với phát tri thức khai phá liệu Khai phá liệu có nhiều ứng dụng thực tế Một số ứng dụng điển hình nhƣ: - Bảo hiểm, tài thị trƣờng chứng khốn: Phân tích tình hình tài dự báo giá loại cổ phiếu thị trƣờng chứng khoán Danh mục vốn giá, lãi suất, liệu thẻ tín dụng, phát gian lận, Đồ án tốt nghiệp: Khai phá liệu từ website việc làm - Phân tích liệu hỗ trợ định - Điều trị y học chăm sóc y tế: Một số thơng tin chuẩn đoán bệnh lƣu hệ thống quản lý bệnh viện Phân tích mối liên hệ triệu chứng bệnh, chuẩn đoán phƣơng pháp điều trị (chế độ dinh dƣỡng, thuốc, ) - Sản xuất chế biến: Quy trình, phƣơng pháp chế biến xử lý cố - Text mining Web mining: Phân lớp văn trang Web, tóm tắt văn bản, - Lĩnh vực khoa học: Quan sát thiên văn, liệu gene, liệu sinh vật học, tìm kiếm, so sánh hệ gene thông tin di truyền, mối liên hệ gene số bệnh di truyền, - Mạng viễn thơng: Phân tích gọi điện thoại hệ thống giám sát lỗi, cố, chất lƣợng dịch vụ, II Ứng dụng luật kết hợp vào khai phá liệu Việc dự đốn thơng tin có giá trị cao dựa số lƣợng liệu lớn nghiệp vụ ngày trở lên quan trọng nhiều tổ chức, doanh nghiệp Chẳng hạn, vấn đề nhà quản lý kinh doanh cần biết kiểu mẫu hành vi mua hàng khách hàng, xu hƣớng kinh doanh, vv… Những thơng tin học đƣợc từ liệu có sẵn Một vấn đề khó khăn việc khai phá liệu CSDL có số vơ lớn liệu cần đƣợc xử lý Các tổ chức doanh nghiệp quy mô vừa có từ hàng hàng trăm Megabyte đến vài Gigabyte liệu thu thập đƣợc Các ứng dụng khai phá liệu thƣờng thực phân tích liệu phức tạp, nhiều thời gian toàn CSDL Vì vậy, tìm thuật tốn nhanh hiệu để xử lý khối lƣợng liệu lớn thách thức lớn Phần trình bày sở lý thuyết luật luật kết hợp, khai phá liệu dựa vào luật kết hợp, đồng thời trình bày số thuật tốn liên quan đến luật kết hợp Lý thuyết luật kết hợp Từ đƣợc giới thiệu từ năm 1993, tốn khai thác luật kết hợp nhận đƣợc nhiều quan tâm nhiều nhà khoa học Ngày việc khai thác luật nhƣ phƣơng pháp khai thác mẫu phổ biến việc khám phá tri thức khai thác liệu (KDD: Knowledge Discovery and Data Mining) 10 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Ngành nghề Nơi làm việc Mức lƣơng mong muốn Người tìm việc Tóm lược Họ tên Tuổi Địa Chức danh Yêu cầu Khả u cầu kinh nghiệm Loại hình cơng việc Mức lƣơng http://works.vn Việc tìm người Sơ lược Cơng ty Cơng việc mong muốn Loại hình cơng việc Nơi làm việc Ngành nghề Mức lƣơng Trình độ học vấn Kĩ Sơ lược Quy mô Địa Chi tiết công việc Chức danh Mô tả công việc Yêu cầu Loại hình cơng việc Nơi làm việc Ngành nghề Cấp bậc tối thiểu Mức lƣơng Liên hệ Hạn nộp hồ sơ http://www.timviecnhanh.com Người tìm việc Việc tìm người Tóm lược Sơ lược Công ty Công ty Họ tên Địa Ngày sinh Mơ tả Giới tính Điện thoại Tình trạng nhân Quy mơ Địa Tiêu chí hoạt động Điện thoại Website Trình độ email Chi tiết cơng việc Chức danh/ vị trí Số lƣợng tuyển Lĩnh vực ngành nghề Công việc mong muốn Địa điểm làm việc Chức danh Kỹ tối thiểu Mô tả công việc Trình độ tối thiểu Mức lƣơng Kinh nghiệm yêu cầu 57 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Địa điểm Trình độ học vấn Kinh nghiệm u cầu giới tính Hình thức làm việc Mức lƣơng 1.3 Thiết kế sở liệu: Hiện bùng nổ công nghệ thông tin, nhu cần tuyển dụng trực tuyến trở lên phù hợp với ứng viên nhà tuyển dụng so với cách tuyển dụng truyền thống Với cách tuyển dụng ứng viên hay nhà tuyển dụng cần truy cập vào website tuyển dụng tìm công việc, hay hồ sơ ứng viên phù hợp với khả ứng hay, nhà tuyển dụng ứng viên hộp hồ sơ trực tiếp qua email cho nhà tuyển dụng, cho ứng viên Với cách tuyển dụng giúp cho nhà quản lý đỡ thời gian việc thu thập thông tin việc làm quan quản lý nắm bắt đƣợc nhu cầu việc làm xã hội từ thơng tin việc làm csdl việc làm rút tri thức hay xu hƣớng công việc nguồn thông tin giúp trƣờng đại học dân lập hải phòng xác định xu hƣớng ngành nghề góp phần định hƣớng đào tạo trƣờng Việc thu thập thông tin việc làm từ trang web cách tự động làm cho việc thu thập thông tin cách nhanh chóng xác Do web site đƣợc tổ chức dƣới dạng phân cấp, ta phải lƣu lại đƣờng dẫn(url) số thông tin quan trọng website Việc tạo sở liệu để lƣu thông tin cần thiết phục vụ cho việc lấy liệu tự động từ web site giúp cho công việc lấy thông tin đƣợc nhanh Thông tin cần lƣu lại để phục vụ việc lấy thông tin tự động từ website bao gồm: tên website, liên kết có bên website, liệu liên kết website Ta có mơ hình sở liệu nhƣ sau: Hình 10: mơ hình csdl lấy data từ website 58 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Qua tìm hiểu hồ sơ website tuyển dụng tiếng việt nam chia thành hai loại thơng tin nhƣ sau: Thơng tin việc tìm ngƣời ngƣời tìm việc Các thơng tin việc tìm ngƣời bao gồm: Ngành tuyển, doanh nghiệp cần tuyển, công việc, mức lƣơng, độ tuổi, giới tính Các thơng tin ngƣời tìm việc bao gồm: Ngành tuyển, ngƣời tuyển, độ tuổi, giới tính, cơng việc Bảng mơ hình ngƣời tìm việc MaNganh TenNganh Bảng Ngành Int Nvarchar(100) Bảng thơng tin tìm việc MaTTTim Int MaNganh Int TenUngVien Nvarchar(50) Dotuoi Int Gioitinh Boolean TenCv Nvarchar(30) Ta có mơ hình sở liệu quan hệ: Hình 11: mơ hình CSDL tìm việc Ta có sở liệu Việc tìm ngƣời nhƣ sau: MaNganh TenNganh Bảng Ngành Int Nvarchar(100) 59 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Bảng thông tin tuyên dụng MaTTTuyen Int MaNganh Int TenDN Nvarchar(50) MucLuong Money Gioitinh Boolean TenCv Nvarchar(30) Dotuoi Int Ta có mơ hình sở liệu quan hệ: Hình 12: mơ hình CSDL tuyển dụng Từ việc phân tích nhƣ trên, ta có sơ đồ quan hệ để lƣu trữ liệu toán nhƣ sau: 60 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Hình 13: mơ hình CSDL chƣơng trình 1.4 Đặc tả liệu: Một đặc điểm mang tính thực tế item không đơn đƣợc xét “Có” hay “Khơng” đếm Support mà item đƣợc kèm theo trọng số mô tả mức quan trọng item Các item ta xem xét thƣờng dạng Boolean Chúng mang giá trị “1” item có mặt giao tác “0” ngƣợc lại Các toán khai phá liệu nhƣ ngƣời ta gọi khai phá kiểu nhị phân (Mining Boolean Association Rules) Nhƣng thực tế, bảng số liệu thƣờng xuất thuộc tính khơng đơn giản nhƣ Các thuộc tính dạng số (quantitative) nhƣ: mức lƣơng, độ tuổi, Các thuộc tính dạng Hạng mục (categorical) nhƣ: Tên Ngành, Tên Cơng Việc, Giới tính, … Ta phải rời rạc hóa đƣa dạng tốn phai phá kết hợp định lƣợng (Mining Quantitative Association Rules) Cũng nhƣ toán khai phá luật kết hợp trƣớc đây, mục tiêu toán khai phá luật kết hợp định lƣỡng kết xuất luật kết hợp ngƣỡng support tối thiểu ngƣỡng confidence tối thiểu Với thuộc tính hạng mục ta phải thực phân đoạn cho thuộc tính làm nhƣ dễ dàng ánh xạ thuộc tính tịnh lƣợng sang thuộc tính boonlean Nếu thuộc tính phân loại số lƣợng có vài giá trị riêng biệt( ví dụ: giới tính) ảnh xạ nhƣ sau: Mỗi thuộc tính bảng 61 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm liệu có p giá trị riêng biệt đƣợc lập thành p thuộc tính Boolean Mỗi thuộc tính Boolean tƣơng ứng với cặp Nó có giá trị “1” value có mặt liệu gốc có giá trị “0” ngƣợc lại Nếu số giá trị riêng biệt số thuộc tính lớn ngƣời ta thực việc phân đoạn thuộc tính thành khoảng ánh xạ cặp thành thuộc tính Sau ánh xạ, thực khai phá luật kết hợp CSDL thuật toán khai phá luật kết hợp kiểu Boolean Tổng quát, ta đƣa số phƣơng pháp rời rạc hoá nhƣ sau: Trường hợp : Nếu A thuộc tính số rời rạc thuộc tính hạng mục có miền giá trị hữu hạng dạng {V1, V2, , Vk} k đủ nhỏ (