Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 73 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
73
Dung lượng
1,71 MB
Nội dung
i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐÀO HUY HIỆU NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI THIỆU VIỆC LÀM CHO SINH VIÊN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2012 S húa bi Trung tõm Hc liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐÀO HUY HIỆU NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI THIỆU VIỆC LÀM CHO SINH VIÊN Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa hc: TS Phm Vit Bỡnh Thái Nguyên - 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii LUẬN VĂN THẠC SỸ Tên đề tài: Nghiên cứu số kỹ thuật khai phá liệu web ứng dụng vào website giới thiệu việc làm cho sinh viên Giáo viên hướng dẫn: TS Phạm Việt Bình Học viên thực hiện: Đào Huy Hiệu Cơ sở đào tạo: Đại học CNTT&TT Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i MỤC LỤC MỤC LỤC i DANH MỤC HÌNH iii MỞ ĐẦU .1 CHƢƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu chung .4 1.2 Khai phá liệu ? 1.3 Quá trình khám phá tri thức CSDL 1.4 Các kỹ thuật áp dụng Data Mining 1.4.1 Các kỹ thuật tiếp cận Data Mining 1.4.2 Các dạng liệu khai phá 1.5 Ứng dụng Data Mining 10 1.6 Phân cụm liệu ứng dụng 11 1.7 Khai phá liệu web 12 CHƢƠNG 2: MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB .18 2.1 Khai phá nội dung Web 18 2.1.1 Khai phá kết tìm kiếm 19 2.1.2 Khai phá văn Web 20 2.2 Khai phá theo sử dụng Web .23 2.2.1 Ứng dụng khai phá theo sử dụng Web 24 2.2.2 Các kỹ thuật đƣợc sử dụng khai phá liệu Web 24 2.2.3 Những vấn đề khai phá theo sử dụng Web 25 2.2.4 Quá trình khai phá theo sử dụng Web 27 2.3 Khai phá cấu trúc Web .32 2.3.1 Tiêu chuẩn đánh giá độ tƣơng tự 33 2.3.2 Khai phá quản lý cộng đồng Web 34 CHƢƠNG 3: CHƢƠNG TRÌNH THỬ NGHIỆM 47 3.1 Quy trình hoạt động Hệ thống cung cấp liệu việc làm 47 3.1.1 Lựa chọn Url lọc cấu trúc HTML 50 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii 3.1.2 Khai phá cấu trúc HTML 50 3.1.3 Thu thập liệu kho sở liệu 52 3.1.4 Hiển thị liệu 53 3.2 Một số giao diện hệ thống 54 3.2.1 Quản trị hệ thống 54 3.2.2 Hệ thống thu thập thông tin tự động Internet 60 KẾT LUẬN 62 TÀI LIỆU THAM KHẢO 65 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii DANH MỤC HÌNH Hình 1.1 Hình 1.2 Hình 1.3 17 Hình 2.1 18 Hình 2.2 26 Hình 2.3 31 Hình 2.4 31 Hình 2.5 33 Hình 2.6 34 Hình 2.7 34 Hình 2.8 34 Hình 2.9 35 Hình 2.10 36 Hình 2.11 37 Hình 2.12 38 Hình 2.13 39 Hình 2.14 40 Hình 2.15 40 Hình 3.1 47 Hình 3.2 49 Hình 3.3 50 Hình 3.4 52 Hình 3.5 53 Hình 3.6 54 Hình 3.7 55 Hình 3.8 56 Hình 3.9 56 Hình 3.10 57 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv Hình 3.11 57 Hình 3.12 58 Hình 3.13 58 Hình 3.14 59 Hình 3.15 59 Hình 3.16 60 Hình 3.17 61 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Từ vài thập niên trở lại đây, với tác động mạnh mẽ tiến công nghệ phần cứng truyền thông, hệ thống liệu phục vụ cho lĩnh vực kinh tế - xã hội phát triển bùng nổ, lượng liệu tạo ngày lớn Sự phong phú liệu, thông tin với khả kịp thời khai thác chúng mang đến suất chất lượng cho công tác quản lý, hoạt động kinh doanh, … Nhưng yêu cầu thơng tin lĩnh vực hoạt động đó, đặc biệt lĩnh vực định, ngày đòi hỏi cao hơn, người định cần liệu mà cịn cần có thêm nhiều hiểu biết, nhiều tri thức để hỗ trợ cho việc định Cho đến năm 90 kỷ trước, nhu cầu khám phá tri thức thực bùng nổ, theo đó, hàng loạt lĩnh vực nghiên cứu tổ chức kho liệu kho thông tin, hệ trợ giúp định, thuật toán nhận dạng mẫu phân lớp mẫu … đặc biệt khai phá liệu đời Từ đời, khai phá liệu trở thành hướng nghiên cứu phổ biến lĩnh vực khoa học máy tính cơng nghệ tri thức Nhiều kết nghiên cứu, ứng dụng khai phá liệu lĩnh vực khoa học, kinh tế, xã hội Khai phá liệu bao hàm nhiều hướng nghiên cứu quan trọng, số kỹ thuật khai phá liệu web Khai phá liệu web trình tìm kiếm phát cụm mẫu liệu tự nhiên sở liệu lớn Các kỹ thuật áp dụng khai phá liệu web phần lớn kế thừa từ lĩnh vực thống kê, học máy, nhận dạng, lượng hố, Đến nay, có nhiều ứng dụng khai phá liệu web cho việc giải vấn đề lĩnh vực tài chính, thông tin địa lý, sinh học, nhận dạng ảnh, … Trong thời gian gần đây, lĩnh vực Khai phá Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn liệu, người ta tập trung chủ yếu vào nghiên cứu, phân tích mơ hình liệu phức tạp liệu văn bản, Web, hình ảnh, đặc biệt mơ hình liệu hỗn hợp để áp dụng chúng Khai phá liệu Ở Việt Nam, năm trở lại đây, nhu cầu tự động khám phá tri thức từ liệu sẵn có nhằm tăng lực cạnh tranh ngành kinh tế phát triển nhanh Vì vậy, tơi chọn hướng nghiên cứu kỹ thuật khai phá liệu web làm đề tài nghiên cứu cho luận văn Luận văn trình bày khảo cứu hệ thống họ thuật toán Khai phá liệu, bao gồm cách tiếp cận đặc điểm ứng dụng Trên sở tơi sâu vào tìm hiểu, phân tích, đánh giá họ thuật toán khai phá liệu Tiếp đến, tơi lựa chọn sâu vào phân tích, thiết kế xây dựng ứng dụng cho toán xây dựng website giới thiệu việc làm cho sinh viên, toán Khai phá liệu áp dụng cho liệu có thuộc tính hỗn hợp kiểu số hạng mục đưa mơ hình xử lý song song cho toán xây dựng website giới thiệu việc làm cho sinh viên Ngoài phần mở đầu kết luận, cấu trúc nội dung luận văn bao gồm có chương: Chương Tập trung trình bày khái quát lĩnh vực khai phá liệu số khái niệm liên quan, đồng thời giai đoạn thực trình khám phá tri thức Phần chương trình bày ngắn gọn, có hệ thống kỹ thuật, dạng liệu thường sử dụng khai phá liệu Chương Hệ thống hóa kỹ thuật khai phá liệu web, khai phá theo nội dung web, khai phá theo sử dụng web, khai phá theo cấu trúc web Qua đó, sâu phân tích chi tiết kỹ thuật, giải pháp Khai phá liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn web ý nghĩa Khai phá liệu web, kỹ thuật sử dụng trình khai phá liệu web, quy trình khai phá liệu web theo thuật tốn Crawler, Hits, Phần cuối chương trình bày vắn tắt, tổng kết đặc trưng phương pháp khai phá liệu web đồng thời nêu kỹ thuật đánh giá kết khai phá liệu web Chương Giới thiệu chương trình giới thiệu việc làm, quy trình hoạt động hệ thống cung cấp liệu việc làm, thu thập liệu kho sở liệu hình ảnh chức chương trình thu thập giới thiệu thơng tin việc làm Phần kết luận, phần trình bày tóm tắt nội dung thực luận văn này, đồng thời đưa vấn đề dự định nghiên cứu cho tương lai Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 52 3.1.3 Thu thập liệu kho sở liệu Danh sách URL(được cung cấp người dùng) Xác định dạng tập tin dạng chuỗi HTML (function file_get_html()) Xác định độ sâu HTML dump_html_tree ($node, $show_attr=true, $deep=0) Xác định dạng tập tin dạng chuỗi (function file_get_dom()) Xây dựng HTML DOM class simple_html_dom_node Độ sâu nút (function dump($show_at tr=true)) Duyệt cú pháp HTML Xác định nút cha, nút nút function parent() Xác định cuối nút function first_child() Xác định anh chị em trước nút function next_sibling() Lọc thông tin cần lưu trữ class simple_html_dom Kho liệu Hình 3.4: Sơ đồ thu thập liệu kho sở liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 53 3.1.4 Hiển thị liệu: Dữ liệu hiển thị khu vực: - Trực tiếp khu vực quản trị hệ thống - Gián tiếp website thông qua trình xử lý hệ quản trị nội dung Dữ liệu thị quản trị hệ thống Cơ sở liệu Dữ liệu hiển thị website Quản trị nội dung Website Hình 3.5: Sơ đồ hiển thị liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 54 3.2 Một số giao diện hệ thống 3.2.1 Quản trị hệ thống 3.2.1.1 Đăng nhập hệ thống Để quản trị hệ thống bạn cần đăng nhập vào hệ thống Đây giao diện chức đăng nhập hệ thống: Hình 3.6 Màn hình đăng nhập Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 55 3.2.1.2 Giao diện đăng nhập Sau bạn đăng nhập thành cơng, giao diện Quản trị hệ thống, với chức quản lý như: link logo, cấu hình hệ thống, quản lý người sử dụng, quản lý chuyên mục… Hình 3.7 Giao diện 3.2.1.3 Quản trị hệ thống a Quản lý Menu Đây giao diện chức quản lý Menu Các menu cần quản lý như: quản lý thông tin, quản lý trang nội dung, quản lý menu, quản lý thành viên… Người quản trị hệ thống thực thao tác thêm, xóa, sửa, active, deactive… Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 56 Hình 3.8 Quản lý menu b Quản lý ngƣời sử dụng Đây giao diện chức quản lý người sử dụng Danh sách Users quản lý với thông tin như: họ tên, tên đăng nhập, email, lần truy cập cuối,… Đối với User có phân quyền truy cập khác Hình 3.9 Quản lý thành viên 3.2.1.4 Quản lý biên tập viết Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 57 Với chức người quản trị hệ thống thực quản lý kiện, tin tức, điều khoản thông qua chức thêm, xóa, sửa Hình 3.10 Quản lý biên tập viết 3.2.1.5 Quản lý nhóm tin Đây giao diện chức quản lý nhóm tin, tin phân nhóm theo tiêu đề… Hình 3.11 Quản lý nhóm tin 3.2.1.6 Quản lý phƣơng tiện Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 58 Đây giao diện chức quản lý phương tiện, cung cấp phương tiện baner, images, … Hình 3.12 Quản lý phương tiện 3.2.1.7 Thu thập liệu Hình 3.13 Thu thập liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 59 3.2.1.7 Quản lý chủ đề Dưới giao diện quản lý theo chủ đề Hình 3.14 Quản lý chủ đề 3.2.1.7 Quản lý trang chủ Hình 3.15 Quản lý trang chủ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 60 3.2.2 Hệ thống thu thập thông tin tự động Internet 3.2.2.1 Trang chủ Đây trang chủ website giới thiệu việc làm Hình 3.16 Trang chủ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 61 3.2.2.2 Hệ thống thu thập liệu việc làm Hình 3.17 Hệ thống thu thập liệu việc làm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 62 Dữ liệu việc làm sau lựa chọn theo chủ đề theo tin tức, lấy kho liệu ta cho phép tin có đăng tải lên website hay không, đăng tải ta có tính như: Có thể cho tin đăng lên đầu, bơi đỏ tin đó, đưa tin vào mục việc làm tốt Qua việc thử nghiệm website giới thiệu việc làm cho kết tốt Có thể dễ dàng quản lý tin, thu thập tin, thơng tin thu thập theo nhiều chủ đề khác thu thập theo ngành nghề, theo số trang tin thu thập theo tin Tổng kết chƣơng 3: Trong chương trình bày ngơn ngữ, thuật tốn dùng để xây dựng chương trình thử nghiệm, trình bày quy trình hoạt động chương trình thu thập thơng tin tự động, ngồi cịn trình bày số giao diện chức hệ thống thu thập liệu tự động Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 63 KẾT LUẬN Khai phá liệu web lĩnh vực có phạm vi nghiên cứu ứng dụng rộng lớn Bao hàm nhiều phương pháp các kỹ thuật khai phá liệu web khác nhau, mở nhiều ứng dụng quan trọng hoạt động kinh tế xã hội, Trong khuôn khổ luận văn thạc sĩ, thực đề tài Nghiên cứu số kỹ thuật khai phá liệu web ứng dụng vào website giới thiệu việc làm cho sinh viên đạt kết sau: - Khái quát khai phá liệu - Khái quát khai phá liệu web - Làm chủ Các thuật toán sử dụng khai phá liệu web thuật toán PageRank, Hits, Crawler - Xây dựng quy trình thu thập liệu tự động từ Internet - Xây dựng Hệ thống cung cấp liệu việc làm Dựa sở nghiên cứu kỹ thuật khai phá cấu trúc web, ứng dụng kỹ thuật Web Crawler vào việc xây dựng website giới thiệu việc làm cho sinh viên, cho kết tốt, Với chức tự động thu thập liệu việc làm, quản lý thành viên, quản lý viết, quản lý chủ đề, quản lý nhóm tin, quản lý phương tiện, - Bước đầu đưa website giới thiệu việc làm vào thực tiễn Mặc dù cố gắng làm việc nghiêm túc thời gian nghiên cứu trình độ chun mơn có hạn, luận văn khơng tránh khỏi thiếu sót Tơi xin phép tiếp thu ý kiến, đánh giá, bảo thầy giáo bạn bè đồng nghiệp Hƣớng nghiên cứu tiếp theo: Trong tương lai tiếp tục nghiên cứu kỹ thuật khai phá liệu Web, qua hồn thiện tiến tới cải tiến quy trình khai phá liệu web Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 64 Bên cạnh đó, tiến hành xây dựng quy trình cơng nghệ phát triển hệ thống phần mềm thu thập, đánh giá nhằm mục đích thu thập nhiều loại liệu khác phục vụ cho nhu cầu khác học tập, tổng hợp phân tích, dự báo kinh tế xử lý liệu cho nhiều đối tượng khác nhau, khơng bó hẹp phạm vi liệu việc làm Tiến tới đưa ứng dụng vào thực tế phục vụ người sử dụng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 65 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Phạm Việt Bình, Chủ trì Đề tài NCKH cấp Bộ B2009-TN08-01 “Nghiên cứu xây dựng hệ thống thu thập, đánh giá phân cụm thông tin tự động internet phục vụ cho việc nghiên cứu, học tập giảng dạy ” [2] Phạm Việt Bình, Nguyễn Văn Huân, Vũ Xuân Nam Một cách tiếp cận khai thác cấu trúc Website Kỷ yếu Hội thảo Quốc gia “Các vấn đề chọn lọc công nghệ thông tin truyền thông Quốc gia” 2010 [3] Phạm Việt Bình, Nguyễn Văn Huân, Vũ Xuân Nam, Trương Mạnh Hà “Tìm kiếm phân cụm tài liệu Web tự động” Tạp chí Khoa học Cơng nghệ Đại học Thái Nguyên 2009 [4] Lê Hoài Bắc (2002), Bài giảng khám phá tri thức khai thác liệu – tìm tập luật kết hợp theo mục đích người dùng, Đại học Quốc gia TP Hồ Chí Minh [5] PGS.TS Đỗ Phúc (2006), Giáo trình Khai thác Dữ liệu, Trường Đại học Cơng nghệ thơng tin TP Hồ Chí Minh, Đại học Quốc gia TP Hồ Chí Minh [6] Một số thông tin Website http://tailieu.vn Tài liệu tiếng Anh [7] Agrawal, R and K Shim (1995), Developing tightly-coupled Data Mining Applications on a Relational Database System IBM Almaden Research Center: San Jose, California [8] Alan Rea (1995), Data Mining – An Introduction The Parallel Computer Centre, Nor of The Queen‟s University of Belfast [9] C.D.Looney (1997), Pattern Recognition Using Neural Network – Theory and algorithm for engineers and scientist, New york, Oxford Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 66 [10] Christopher D Manning, Prabhakar Raghavan, Hinrich Schutze, “An introduction to Information Retrival”, Cambridge University, 2007, page 349- 400 [11]Freitas and S.H Lavington (1998), Mining very large Database with Parllel Processing Kluwer Academic Publishers [12] Gropp, Lusk, Skjel - lum (1996), Portable Parallel Programming With the Message Passing Interface, MIT Press, MA [13] Guanrong Chen and Trung Tat Pham(2001), Fuzzy Sets, Fuzzy Logic and Fuzzy Control Systems, CRC Press LLC, Florida, USA [14] George V Moustakides, Vassilios S Verykios, A MaxMin Approach for Hiding Frequent Itemsets, Data & Knowledge Engineering 65, p.75-89, 2008 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ... THÔNG TIN VÀ TRUYỀN THÔNG ĐÀO HUY HIỆU NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI THIỆU VIỆC LÀM CHO SINH VIÊN Chuyên ngành: Khoa học máy tính Mã số: 60 48 01... nghiên cứu, ứng dụng khai phá liệu lĩnh vực khoa học, kinh tế, xã hội Khai phá liệu bao hàm nhiều hướng nghiên cứu quan trọng, số kỹ thuật khai phá liệu web Khai phá liệu web trình tìm kiếm phát... thống hóa kỹ thuật khai phá liệu web, khai phá theo nội dung web, khai phá theo sử dụng web, khai phá theo cấu trúc web Qua đó, sâu phân tích chi tiết kỹ thuật, giải pháp Khai phá liệu Số hóa Trung