1. Trang chủ
  2. » Thể loại khác

Luận văn tìm hiểu bài toán khai phá dữ liệu văn bản

53 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 53
Dung lượng 1,86 MB

Nội dung

LỜI CẢM ƠN Em xin bày tỏ lời cảm ơn sâu sắc tới PGS.TS Đỗ Năng Toàn, thầy tận tình hƣớng dẫn giúp đỡ em nhiều trình làm tốt nghiệp để tìm hiểu, nghiên cứu đề tài “Tìm hiểu tốn khai phá liệu văn bản” đƣợc giao để em hồn thành tốt đề tài tốt nghiệp Em xin chân thành cảm ơn dạy bảo thầy cô giáo khoa CNTT – Trƣờng ĐHDLHP trang bị cho em kiến thức để em hồn thành tốt đề tài tốt nghiệp Tuy có nhiều cố gắng trình làm đề tài nhƣng em khơng tránh khỏi sai sót Em mong thầy giáo dẫn, đóng góp cho em ý kiến quý báu để giúp em hoàn thiện đề tài nhƣ để phát triển mở rộng đề tài sau Em xin chân thành cảm ơn! Hải Phòng, ngày tháng năm Sinh viên Bùi Thị Mây Mangh■■ng Luôn 123doc Th■a thu■n l■icam s■ tr■ h■u k■t s■ nghi■m t■im■t d■ng s■website mang kho m■i th■ m■ l■i d■n CH■P vi■n nh■ng cho ■■u kh■ng ng■■i NH■N quy■n chia dùng, l■ CÁC s■l■i v■i và■I■U t■t công h■n mua nh■t 2.000.000 ngh■ bán KHO■N cho tàihi■n ng■■i li■u TH■A tài th■ hàng li■u dùng hi■n THU■N ■■u ■ t■t Khi ■■i, Vi■t c■ khách b■n l■nh Nam Chào online hàng v■c: Tác m■ng tr■ khơng tài phong thành b■n khác chun ■■n thành tíngì d■ng, v■i so nghi■p, viên 123doc v■i cơng c■a b■n hồn ngh■ 123doc g■c h■o, thơng B■n và■■ n■p có tin, cao th■ ti■n ngo■i tính phóng vào ng■, Khách trách tài to,kho■n nhi■m thu nh■ c■a ■■i hàng tùy123doc, v■i ý cót■ng th■b■n d■ ng■■i dàng s■ dùng ■■■c tra c■u M■c h■■ng tàitiêu li■u nh■ng hàng m■t■■u quy■n cáchc■a l■i123doc.net sau xác,n■p nhanh ti■n tr■ chóng thành website th■ vi■n tài li■u online l■n nh■t Vi■t Nam, cung c■p nh■ng tài li■u ■■c không th■ tìm th■y th■ tr■■ng ngo■i tr■ 123doc.net Nhi■u event thú v■, event ki■m ti■n thi■t th■c 123doc luôn t■o c■ h■i gia t■ng thu nh■p online cho t■t c■ thành viên c■a website Mangh■n Luôn Th■a Xu■t Sau Nhi■u 123doc h■■ng phát thu■n l■i event cam s■ nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chuyên ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thông B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mơ ngun b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Lnh■n 123doc Sau Th■a Xu■t h■■ng phát thu■n cam nh■n m■t t■k■t s■ t■i ýxác n■m t■■ng d■ng s■ nh■n website mang ■■i, t■o t■l■i c■ng ■■ng d■n 123doc CH■P nh■ng ■■u ■■ng h■ NH■N ■ã quy■n th■ng chia t■ng ki■m CÁC s■s■ l■i b■■c ti■n vàchuy■n ■I■U t■t mua online kh■ng nh■t bán KHO■N sang b■ng cho tài ■■nh ng■■i li■u ph■n tài TH■A v■ li■u hàng thơng dùng tríTHU■N hi■u c■a ■■u tin Khi qu■ Vi■t xác khách nh■t, minh Nam Chào hàng uy tài l■nh Tác m■ng tín kho■n tr■ phong v■c cao thành b■n email nh■t tàichuyên ■■n li■u thành b■n Mong v■i nghi■p, viên kinh ■ã 123doc 123doc.net! mu■n ■■ng c■a doanh hoàn mang 123doc kýonline v■i h■o, Chúng l■ivà 123doc.netLink cho Tính ■■ n■p tơi c■ng cao ■■n cung ti■n tính ■■ng th■i vào c■p trách xác tài ■i■m D■ch xãkho■n th■c nhi■m h■itháng V■ m■t s■ c■a (nh■ ■■i ■■■c ngu■n 5/2014; 123doc, v■i ■■■c g■i t■ng tài 123doc v■ mô nguyên b■n ng■■i ■■a t■s■ v■■t d■■i tri dùng ■■■c ch■ th■c m■c ■ây) email M■c h■■ng quý 100.000 cho b■n tiêu báu, b■n, nh■ng ■ã hàng phong l■■t tùy ■■ng ■■u quy■n truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau vuingày, n■p lòng “■i■u giàu ti■n s■ ■■ng tr■ giá Kho■n h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Lnh■n Th■a Xu■t Sau Nhi■u 123doc Mang h■■ng phát thu■n l■i event cam s■ nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chun ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n cơng ■■ng c■a c■ doanh b■n hồn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thơng B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i không t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t u■t phát Nhi■u Mang Luôn 123doc Th■a Xu■t Sau h■n h■■ng phát thu■n l■i event s■ cam nh■n t■ m■t tr■ t■ h■u ýk■t s■ thú nghi■m t■i ýt■■ng xác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event t■o kho m■i ■■i, t■o t■ c■ng th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■ng ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia ki■m t■ng ki■m dùng, l■ CÁC s■ th■c ti■n s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công online h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N b■ng sang b■ng cho tài ■■nh hi■n tài ng■■i li■u ph■n tài TH■A li■u tài v■ th■ li■u hàng t■o li■u thông dùng trí hi■u hi■n THU■N hi■u c■ c■a ■■u ■ tin qu■ t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia nh■t, b■n nh■t, minh l■nh Nam t■ng Chào online uy hàng uy tài v■c: l■nh thu Tác tín m■ng tín kho■n tr■ cao nh■p khơng tài phong v■c cao thành b■n nh■t email nh■t tài online khác chun ■■n li■u thành tín Mong b■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã mu■n t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n mang hoàn mang ngh■ 123doc ký g■c online thành v■i l■i h■o, Chúng l■i thông B■n cho 123doc.netLink cho viên Tính ■■ n■p có c■ng tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i ■■ng tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác xã tài ■i■m D■ch xã to,h■i kho■n th■c nhi■m h■i thum■t tháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ngu■n ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cótài g■i t■ng th■ tài 123doc nguyên v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t tri d■■i tri dùng ■■■c ch■ th■c tra th■c m■c ■ây) email c■u quý M■c h■■ng quý 100.000 cho tài báu, b■n tiêu báu, li■u b■n, nh■ng phong ■ã hàng phong m■t l■■t tùy ■■ng ■■u phú, quy■n cách truy thu■c phú, ky, c■a c■p ■a ■a l■i b■n vào d■ng, 123doc.net m■i d■ng, sau xác, vuingày, n■p giàu lòng “■i■u nhanh giàu ti■n giá s■ ■■ng tr■ giá Kho■n chóng h■u tr■ thành tr■ nh■p ■■ng 2.000.000 website ■■ng Th■a th■ email th■i vi■n th■i Thu■n mong c■a thành mong tài v■ li■u mu■n viên mu■n S■ online ■■ng D■ng t■o click t■o l■n ■i■u ký, D■ch ■i■u vào nh■t l■t link ki■n ki■n V■” vào Vi■t 123doc cho top sau cho Nam, cho 200 ■ây cho ■ã cung các (sau g■i users website c■p users ■âynh■ng có ■■■c cóph■ thêm thêm tài bi■n g■i thu thu li■u t■t nh■p nh■t nh■p ■■c T■it■i Chính khơng t■ng Chính Vi■tth■i vìth■ Nam, vìv■y v■y ■i■m, tìm 123doc.net t■123doc.net th■y l■chúng tìm ki■m tơi th■ racó ■■i thu■c ■■i tr■■ng th■ nh■m nh■m c■p top ngo■i ■áp 3nh■t ■áp Google ■ng tr■ ■KTTSDDV ■ng 123doc.net nhu Nh■n nhuc■u c■u ■■■c chia theo chias■ quy■t danh s■tàitài hi■u li■u li■uch■t ch■t c■ng l■■ng l■■ng ■■ng vàvàki■m bình ki■mch■n ti■n ti■nonline online website ki■m ti■n online hi■u qu■ uy tín nh■t Nhi■u Mang Ln 123doc Th■a Xu■t Sau h■n h■■ng phát thu■n l■i event s■ cam nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chuyên ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thông B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mơ nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Tìm hiểu toán khai phá liệu văn MỤC LỤC LỜI NÓI ĐẦU CHƢƠNG – KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm khai phá liệu 1.2 Quá trình khai phá liệu 1.3 Các tốn thơng dụng khai phá liệu CHƢƠNG – KHAI PHÁ DỮ LIỆU TRONG LẤY TIN TỰ ĐỘNG PHẦN I: Lấy tin tự động Định nghĩa Quy trình lấy tin tự động PHẦN II: Khai phá liệu lấy tin tự động Tìm hiểu XML 1.1 Nguồn gốc mục đích 1.2 Đặc điểm 1.3 Cấu trúc 1.4 Ứng dụng XML Tìm hiểu RSS 2.1 Tổng quan RSS 2.2 Lịch sử đời RSS 2.3 Quy định RSS 2.4 Cú pháp RSS Tìm hiểu tốn khai phá liệu văn 2.5 Các phần tử RSS 2.6 Các phần tử RSS CHƢƠNG 3: PHÂN TÍCH THIẾT KẾ CHƢƠNG TRÌNH 3.1 Tổng quan chƣơng trình 3.2 Khảo sát, phân tích đánh giá yêu cầu 3.2.1 Khảo sát số chƣơng trình hỗ trợ đọc tin tức RSS 3.2.2 Tổng hợp yêu cầu ngƣời dùng 3.2.3 Đánh giá lựa chọn giải pháp 3.3 Phân tích chức hệ thống 3.3.1 Biểu đồ Use Case 3.3.2 Đặc tả Use - case 3.3.3 Biểu đồ (Sequence Diagram) 3.4 Thiết kế sở liệu 3.4.1 Đặc tả chi tiết bảng liệu 3.4.2 Mơ hình quan hệ CHƢƠNG 4: XÂY DỰNG CHƢƠNG TRÌNH 4.1 Quy trình tự động lấy đƣờng dẫn tới tập tin RSS 4.2 Quy trình đọc tập tin RSS 4.3 Một số hình giao diện đạt đƣợc KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN TÀI LIỆU THAM KHẢO PHỤ LỤC Tìm hiểu tốn khai phá liệu văn LỜI NÓI ĐẦU Trong thời đại ngày nay, thông tin nhu cầu thiết yếu ngƣời lĩnh vực Mỗi phút trôi qua hàng triệu triệu trang web đƣợc đẩy lên nhằm làm giàu nguồn tài nguyên vô tận Vấn đề đặt ta nắm bắt, cập nhật, chia sẻ thông tin cách tổng quát, nhanh chóng dễ dàng khối lƣợng thơng tin khổng lồ nhƣ Do địi hỏi phải khai phá nguồn liệu để lấy đƣợc thơng tin có ích cách tự động Trên giới nay, nhiều website cung cấp tập tin RSS để chia sẻ cập nhật thông tin cách dễ dàng nhanh chóng Một số website hỗ trợ đọc tin RSS nhƣ: Google Reader, Yahoo,…và số phần mềm nhƣ: RSSReader, FeedDemon Còn Việt Nam, có số phần mềm hỗ trợ Tìm hiểu tốn khai phá liệu văn đọc tin nhƣ: Vietspider, iCA website hỗ trợ đọc tin RSS trực tuyến chƣa nhiều Chính đề tài “Tìm hiểu tốn khai phá liệu văn bản” đƣợc đƣa nhằm ứng dụng khai phá liệu vào việc xây dựng hệ thống thu thập tin tức từ nhiều nguồn website khác giúp cho ngƣời dùng nắm bắt thơng tin cách dễ dàng tiết kiệm thời gian Nội dung đề tài gồm phần sau: Chƣơng – Khái quát khai phá liệu Tìm hiểu khái niệm, trình tốn khai phá liệu Chƣơng - Khai phá liệu lấy tin tự động Nội dung chƣơng tìm hiểu lấy tin tự động ứng dụng khai phá liệu lấy tin tự động (tìm hiểu ngơn ngữ XML công nghệ RSS ) Chƣơng – Phân tích thiết kế chƣơng trình Nội dung chƣơng q trình khảo sát, phân tích thiết kế chi tiết cho chƣơng trình hỗ trợ đọc tin RSS Chƣơng – Xây dựng chƣơng trình Nêu lớp, phƣơng thức để xây dựng website hỗ trợ đọc tin RSS Và cuối đƣa số hình giao diện đạt đƣợc Kết luận phƣơng hƣớng phát triển Phần cuối kết luận kết đạt đƣợc ƣu nhƣợc điểm đề tài Bên cạnh đó, phần nêu phƣơng hƣớng để tiếp tục phát triển đề tài tƣơng lai nhằm ngày hoàn thiện đáp ứng đƣợc nhu cầu ngày cao ngƣời sử dụng CHƢƠNG – KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU Nội dung chƣơng gồm : Phần 1: Khái niệm khai phá liệu Phần 2: Quá trình khai phá liệu Phần 3: Các tốn thơng dụng khai phá liệu Tìm hiểu tốn khai phá liệu văn 1.1 Khái niệm khai phá liệu Khai phá liệu – Data mining: Là bƣớc tiến trình khai phá tri thức (KDD) KDD - Knowledge discovery in database: Thuật ngữ tổng quát gồm bƣớc nhƣ tiền xử lý, KPDL, hậu xử lý 1.2 Quá trình khai phá liệu a Tìm hiểu nghiệp vụ liệu  Nhà tƣ vấn nghiên cứu kiến thức lĩnh vực áp dụng, bao gồm tri thức cấu trúc hệ thống, nguồn liệu hữu, ý nghĩa, vai trò tầm quan trọng thực thể liệu b Chuẩn bị liệu  Giai đoạn sử dụng kỹ thuật tiền xử lý để biến đổi cải thiện chất lƣợng lƣợng liệu để thích hợp với yêu cầu giải thuật học:  Các giải thuật tiền xử lý bao gồm:  Xử lý liệu bị thiếu / mất: Các liệu bị thiếu đƣợc thay giá trị thích hợp  Khử trùng lặp: Các đối tƣợng liệu trùng lặp bị loại bỏ Kỹ thuật không đƣợc sử dụng cho tác vụ có quan tâm đến phân bổ liệu  Giảm nhiễu: Nhiễu đối tƣợng tách rời khỏi phân bố chung bị loại khỏi liệu  Chuẩn hóa: Miền giá trị liệu đƣợc chuẩn hóa  Rời rạc hóa: Các liệu số đƣợc biến đổi giá trị rời rạc  Rút trích xây dựng đặc trƣng từ thuộc tính có  Giảm chiều: Các thuộc tính chứa thơng tin đƣợc loại bỏ bớt c Mơ hình hóa liệu Tìm hiểu toán khai phá liệu văn  Các giải thuật học sử dụng liệu đƣợc tiền xử lý giai đoạn hai để tìm kiếm quy tắc ẩn chƣa biết d Hậu xử lý đánh giá mơ hình  Dự đánh giá ngƣời dùng sau kiểm tra tập thử, mơ hình đƣợc tinh chỉnh kết hợp lại cần Chỉ mơ hình đạt đƣợc mức yêu cầu ngƣời dùng đƣa triển khai thực tế  Trong giai đoạn này, kết đƣợc biến đổi từ dạng học thuật sang dạng phù hợp với nghiệp vụ dễ hiểu cho ngƣời dùng e Triển khai tri thức  Các mơ hình đƣợc đƣa vào hệ thống thơng tin thực tế dƣới dạng môđun hỗ trợ việc đƣa định  Mối quan hệ chặt chẽ giai đoạn trình KPDL quan trọng cho việc nghiên cứu KPDL Một giải thuật KPDL đƣợc phát triển độc lập, không quan tâm đến bối cảnh áp dụng mà thƣờng đƣợc xây dựng để giải mục tiêu cụ thể  Q trình đƣợc lặp lại nhiều lần hay nhiều giai đoạn dựa phản hồi từ kết giai đoạn sau 1.3 Các tốn thơng dụng KPDL  Phân lớp (Classification): Với tập liệu huấn luyện cho trƣớc huấn luyện ngƣời,các giải thuật phân loại học phân loại (classifier) dùng để phân liệu vào lớp (còn gọi loại) đƣợc xác định trƣớc  Dự đoán (Prediction) học dự đoán Khi có liệu đến, dự đốn dựa thơng tin có để đƣa giá trị số học cho hàm cần dự đoán  Tìm luật liên kết (Association Rule) tìm kiếm mối liên kết thành phần từ liệu Tìm hiểu tốn khai phá liệu văn  Phân cụm (Clustering) nhóm đối tƣợng liệu có tính chất giống vào nhóm Tìm hiểu tốn khai phá liệu văn CHƢƠNG KHAI PHÁ DỮ LIỆU TRONG LẤY TIN TỰ ĐỘNG Nội dung chƣơng gồm:  Phần 1: Lấy tin tự động ( Định nghĩa lấy tin tự động quy trình lấy tin tự động )  Phần 2: Khai phá liệu lấy tin tự động (Tìm hiểu XML RSS) PHẦN I: LẤY TIN TỰ ĐỘNG Định nghĩa  Lấy tin tự động q trình tìm kiếm thơng tin có giá trị khối liệu lớn  Là việc trích lấy thơng tin từ trang Web có nội dung cần quan tâm tới Quy trình lấy tin tự động Với loại liệu khác nhau, q trình lấy tin tự động thơng thƣờng đƣợc thực qua bƣớc sau:  Bƣớc 1: Tìm hiểu lĩnh vực xác định vấn đề có liên quan  Bƣớc 2: Thu thập tiền xử lý liệu Đây bƣớc quan trọng, chiếm phần lớn thời gian sức lực (70 ÷ 80%) tiến trình  Bƣớc 3: Lấy tin tự động trích chọn mẫu, thơng tin có ý nghĩa Bƣớc gồm phƣơng thức để tạo thơng tin hữu ích từ liệu  Bƣớc 4: Đƣa thông tin hiển thị Tìm hiểu tốn khai phá liệu văn PHẦN II: KHAI PHÁ DỮ LIỆU TRONG LẤY TIN TỰ ĐỘNG Đặt vấn đề: Sự phát triển nhanh chóng mạng Internet Intranet sinh khối lƣợng khổng lồ liệu dạng siêu văn ( liệu Web) Cùng với thay đổi phát triển hàng ngày hàng nội dung nhƣ số lƣợng trang Web Internet vấn đề tìm kiếm thơng tin ngƣời sử dụng lại ngày khó khăn Có thể nói trang Web nhƣ từ điển bách khoa toàn thƣ Thông tin trang Web đa dạng mặt nội dung nhƣ hình thức, nói Internet nhƣ xã hội ảo, bao gồm thơng tin mặt đời sống kinh tế, xã hội đƣợc trình bày dƣới dạng văn bản, hình ảnh , âm thanh,….Tuy nhiên với đa dạng số lƣợng lớn thông tin nhƣ nảy sinh vấn đề tải thông tin Ngƣời ta tự tìm kiếm địa trang Web chứa thơng tin mà cần yêu cầu đặt làm để lấy đƣợc thơng tin mà cần khối lƣợng thơng tin khổng lồ Do ngƣời ta ứng dụng khai phá liệu để lấy tin tự động Tìm hiểu XML 1.1 Nguồn gốc mục đích XML (Extensible Markup Language) tức ngôn ngữ đánh dấu mở rộng đời vào tháng 2/1998, W3C đề xuất XML tập SGML (Standardized Generalized Makup Language) XML đƣợc thiết kế để chuyển tải lƣu trữ liệu Mục đích XML đơn giản hố việc chia sẻ liệu hệ thống khác nhau, đặc biệt hệ thống đƣợc kết nối Internet 1.2 Đặc điểm XML dùng văn (text) để mô tả thông tin XML không phụ thuộc vào ứng dụng, phần mềm phần cứng 10 Tìm hiểu tốn khai phá liệu văn CHƢƠNG – XÂY DỰNG CHƢƠNG TRÌNH Nội dung chƣơng bao gồm: Phần 1: Mơ tả qui trình lấy link RSS tự động, đọc tập tin RSS Phần 2: Một số hình giao diện đạt đƣợc Phần ta xác định đƣợc yêu cầu chức chƣơng trình Để đáp ứng đƣợc chức ta cần làm nhƣ sau 4.1 Qui trình tự động lấy đƣờng dẫn tới tập tin RSS Khi ngƣời dùng nhập đƣờng dẫn tới webisite (chẳng hạn: http://vietnamnet.vn ), nhiệm vụ hệ thống lấy tất file RSS mà webisite cung cấp Bước 1: Ta phải tải nội dung trang HTML website Bước 2: Ta sử dụng đến biểu thức qui (Regular Expression) để lọc thẻ chứa đƣờng dẫn tới file RSS Bước 3: Lọc đƣờng dẫn tới file RSS, ta dùng biểu thức qui để match() đƣợc href chứa đƣờng dẫn tới file RSS Bước 4: Sau lấy đƣợc đƣờng dẫn tới file RSS, lƣu vào CSDL Tiếp theo, đọc file RSS 4.2 Qui trình đọc tập tin RSS Ngƣời dùng nhập trực tiếp đƣờng dẫn tới file RSS Nhiệm vụ hệ thống trích rút liệu từ file RSS Để trích rút liệu ta làm nhƣ sau: Bước 1: Trƣớc tiên thiết kế lớp RSSItem để chứa liệu mà ta trích rút từ file RSS Bước 2: Đọc file RSS 39 Tìm hiểu tốn khai phá liệu văn 4.3 Một số hình giao diện đạt đƣợc Hình 18 – Giao diện trang đăng nhập Hình 19 – Giao diện trang quản lý ngƣời dùng 40 Tìm hiểu tốn khai phá liệu văn Hình 20 – Giao diện blog 41 Tìm hiểu tốn khai phá liệu văn Hình 21 – Giao diện thƣ mục RSS cung cấp sẵn 42 Tìm hiểu tốn khai phá liệu văn Hình 22 – Giao diện trang lấy link RSS tự động Hình 23 – Giao diện trang tin tức lấy 43 Tìm hiểu tốn khai phá liệu văn Hình 24 – Giao diện trang quản lý nhóm tin 44 Tìm hiểu tốn khai phá liệu văn KẾT LUẬN VÀ PHƢƠNG HƢỚNG PHÁT TRIỂN Trong q trình tìm hiểu số cơng nghệ XML, em thấy XML chuẩn thân thiện, dễ đọc hiểu, tảng để phát triển nhiều ngơn ngữ khác có ứng dụng cao có RSS Hiện nhiều website chia sẻ tin tức dùng chuẩn RSS, nên việc xây dựng chƣơng trình hỗ trợ đọc tin RSS điều cần thiết Với nỗ lực cố gắng, đồ án đạt đƣợc kết sau: Kết đạt đƣợc Hiểu biết cách sử dụng tài liệu XML vấn đề chia sẻ liệu Biết cách đọc ghi tài liệu XML Hiểu biết cách sử dụng biểu thức qui việc tìm kiếm chuỗi Xây dựng đƣợc website hỗ trợ đọc tin RSS với chức Hiểu nắm đƣợc kiến thức XML NET Biết cách lập trình với ngơn ngữ C# Bên cạnh đó, chƣơng trình cịn có hạn chế Cách xếp, tổ chức tin tức chƣa đƣợc tốt Chƣơng trình chƣa trau truốt vào giao diện Chức chƣơng trình cịn hạn chế Hƣớng phát triển đề tài Khắc phục hạn chế chƣơng trình Tìm hiểu thêm cơng nghệ AJAX, NET Framework 3.5, tìm hiểu cách xây dựng PORTAL , trọng tâm PERSONAL PORTAL Đây xu hƣớng phổ dụng giới Một số ví dụ điển hình nhƣ : iGoogle, My Yahoo,… Với kiến thức tảng cơng nghệ đó, em phát triển chƣơng trình thành PERSONAL PORTAL Một PERSONAL PORTAL nơi để ngƣời chia sẻ đƣợc thông tin,dữ liệu với nhau: nhƣ tin tức, tranh ảnh, video, thời tiết, số chứng khốn,…… 45 Tìm hiểu toán khai phá liệu văn TÀI LIỆU THAM KHẢO [1] Dƣơng Quang Thiện .NET toàn tập - Tập 5: Lập trình Web dùng ASP.NET C# - Nhà xuất Tổng hợp TP.HCM [2] Nguyễn Ngọc Bình Phƣơng – Thái Thanh Phong Ebook: Các giải pháp lập trình C# Nhà sách Đất Việt Website [3] http://www.w3schools.com/xml/ [4] http://msdn.microsoft.com/ [5] http://www.xml.com/ [6] http://www.codeproject.com [7] http://www.asp.net PHỤ LỤC Phụ lục A - PHẦN CODE CHÍNH CỦA CHƢƠNG TRÌNH Lớp Channel namespace mayRSS { public class Channel { // khai bao truong, thuoc tinh, ham tao private String _Link; public String Link { get { return _Link; } set { Link = value; } } public Channel(String link) { _Link = link; } } } 46 Tìm hiểu toán khai phá liệu văn Lớp RSSItem using System; using System.Collections.Generic; using System.Text.RegularExpressions; namespace mayRSS { public class RSSItem { // khai private private private private private private private bao fields string _Title; string _Link; string _Description; string _Image; string _Enclosure; // mp3, audio DateTime? _PubDate; string _AuthorName; // ham tao constructor public RSSItem(string title, string link, string desc, string img, string enclosure, DateTime? pubDate, string authorName) { _Title = title; _Link = link; _Description = desc; _Image = img; _Enclosure = enclosure; _PubDate = pubDate; _AuthorName = authorName; } // khai bao thuoc tinh properties public string Title { get{ return _Title; } set{ _Title = value;} } public string Link { get{ return _Link; } set{ _Link = value;} } public string Description { ge{ return _Description;} 47 Tìm hiểu tốn khai phá liệu văn set{ _Description = value;} } public string Image { get{ return _Image;} set{ _Image = value;} } public string Enclosure { get { return _Enclosure; } set { _Enclosure = value; } } public DateTime? PubDate { get { return _PubDate; } set { _PubDate = value; } } public string AuthorName { get { return _AuthorName; } set { _AuthorName = value; } } } } Lớp LoadURL: lấy link RSS tự động using using using using using using System; System.Text.RegularExpressions; System.Collections.Generic; System.Net; System.IO; System.Data; namespace mayRSS { public class LoadURL { // khai bao field private bool _success = false; // khai bao thuoc tinh public bool Success { get { return _success; } 48 Tìm hiểu toán khai phá liệu văn } public Channel[] listChannel; // ham tao contructor public LoadURL(string linkWebsite) { Regex RegX = new Regex("

Ngày đăng: 05/08/2021, 21:50

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w