3.2.2.1 Trang chủ
Đây là trang chủ của website giới thiệu việc làm
3.2.2.2 Hệ thống thu thập dữ liệu việc làm
Dữ liệu việc làm sau khi được lựa chọn theo chủ đề hoặc theo tin tức,.. sẽ được lấy về kho dữ liệu và ở đây ta sẽ cho phép tin đó có được đăng tải lên website hay không, nếu đăng tải ta có những tính năng như: Có thể cho tin đó đăng lên đầu, hoặc có thể bôi đỏ tin đó, cũng có thể đưa tin đó vào mục việc làm tốt nhất.
Qua việc thử nghiệm website giới thiệu việc làm đã cho ra kết quả tốt. Có thể dễ dàng quản lý tin, thu thập tin, thông tin có thể thu thập theo nhiều chủ đề khác nhau như có thể thu thập theo ngành nghề, theo số trang tin hoặc cũng có thể thu thập theo tin.
Tổng kết chƣơng 3:
Trong chương này trình bày ngôn ngữ, thuật toán dùng để xây dựng chương trình thử nghiệm, trình bày quy trình hoạt động của chương trình thu thập thông tin tự động, ngoài ra còn trình bày một số giao diện về các chức năng của hệ thống thu thập dữ liệu tự động
KẾT LUẬN
Khai phá dữ liệu web là một lĩnh vực có phạm vi nghiên cứu và ứng dụng rộng lớn. Bao hàm nhiều phương pháp và các các kỹ thuật khai phá dữ liệu web khác nhau, nó mở ra rất nhiều các ứng dụng quan trọng trong hoạt động kinh tế xã hội, Trong khuôn khổ luận văn thạc sĩ, tôi đã thực hiện đề tài
Nghiên cứu một số kỹ thuật khai phá dữ liệu web và ứng dụng vào website giới thiệu việc làm cho sinh viên và đã đạt được những kết quả sau:
- Khái quát về khai phá dữ liệu. - Khái quát về khai phá dữ liệu web.
- Làm chủ được Các thuật toán sử dụng trong khai phá dữ liệu web như thuật toán PageRank, Hits, Crawler.
- Xây dựng quy trình thu thập dữ liệu tự động từ Internet.. - Xây dựng Hệ thống cung cấp dữ liệu việc làm.
Dựa trên cơ sở nghiên cứu các kỹ thuật khai phá cấu trúc web, tôi đã ứng dụng kỹ thuật Web Crawler vào việc xây dựng website giới thiệu việc làm cho sinh viên, đã cho ra kết quả tốt, Với các chức năng như tự động thu thập dữ liệu việc làm, quản lý thành viên, quản lý bài viết, quản lý chủ đề, quản lý nhóm tin, quản lý phương tiện, ..
- Bước đầu đưa website giới thiệu việc làm vào thực tiễn.
Mặc dù đã tôi đã cố gắng hết sức và làm việc nghiêm túc nhưng do thời gian nghiên cứu và trình độ chuyên môn có hạn, luận văn không tránh khỏi những thiếu sót. Tôi xin phép được tiếp thu ý kiến, sự đánh giá, chỉ bảo của các thầy giáo cũng như bạn bè và đồng nghiệp.
Hƣớng nghiên cứu tiếp theo:
Trong tương lai tôi sẽ tiếp tục nghiên cứu về các kỹ thuật khai phá dữ liệu Web, qua đó hoàn thiện và tiến tới cải tiến các quy trình khai phá dữ liệu web.
Bên cạnh đó, tiến hành xây dựng quy trình công nghệ và phát triển hệ thống phần mềm thu thập, đánh giá nhằm mục đích thu thập được nhiều loại dữ liệu khác nhau phục vụ cho những nhu cầu khác nhau như học tập, tổng hợp phân tích, dự báo kinh tế và xử lý dữ liệu cho nhiều đối tượng khác nhau, chứ không chỉ bó hẹp trong phạm vi dữ liệu việc làm. Tiến tới đưa ứng dụng này vào thực tế phục vụ người sử dụng.
TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt
[1] Phạm Việt Bình, Chủ trì Đề tài NCKH cấp Bộ B2009-TN08-01 “Nghiên cứu và xây dựng hệ thống thu thập, đánh giá và phân cụm thông tin tự động trên internet phục vụ cho việc nghiên cứu, học tập và giảng dạy ”.
[2] Phạm Việt Bình, Nguyễn Văn Huân, Vũ Xuân Nam. Một cách tiếp cận khai thác cấu trúc Website. Kỷ yếu Hội thảo Quốc gia “Các vấn đề chọn lọc về công nghệ thông tin và truyền thông Quốc gia” 2010.
[3] Phạm Việt Bình, Nguyễn Văn Huân, Vũ Xuân Nam, Trương Mạnh Hà
“Tìm kiếm và phân cụm tài liệu Web tự động”. Tạp chí Khoa học và Công nghệ Đại học Thái Nguyên 2009.
[4] Lê Hoài Bắc (2002), Bài giảng về khám phá tri thức và khai thác dữ liệu – tìm tập luật kết hợp theo mục đích người dùng, Đại học Quốc gia TP. Hồ Chí Minh.
[5] PGS.TS Đỗ Phúc (2006), Giáo trình Khai thác Dữ liệu, Trường Đại học Công nghệ thông tin TP. Hồ Chí Minh, Đại học Quốc gia TP. Hồ Chí Minh. [6] Một số thông tin trên Website http://tailieu.vn.
Tài liệu tiếng Anh
[7] Agrawal, R. and K. Shim (1995), Developing tightly-coupled Data Mining Applications on a Relational Database System. IBM Almaden Research Center: San Jose, California.
[8] Alan Rea (1995), Data Mining – An Introduction. The Parallel Computer Centre, Nor of The Queen‟s University of Belfast.
[9] C.D.Looney (1997), Pattern Recognition Using Neural Network – Theory and algorithm for engineers and scientist, New york, Oxford.
[10] Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze, “An introduction to Information Retrival”,Cambridge University, 2007, page 349- 400.
[11]Freitas and S.H. Lavington (1998), Mining very large Database with Parllel Processing. Kluwer Academic Publishers.
[12] Gropp, Lusk, Skjel - lum (1996), Portable Parallel Programming With the Message Passing Interface, MIT Press, MA.
[13] Guanrong Chen and Trung Tat Pham(2001), Fuzzy Sets, Fuzzy Logic and Fuzzy Control Systems, CRC Press LLC, Florida, USA.
[14] George V. Moustakides, Vassilios S. Verykios, A MaxMin Approach for Hiding Frequent Itemsets, Data & Knowledge Engineering 65, p.75-89, 2008.