Xây dựng hệ thống thu thập thông tin tự động phục vụ cập nhật nội dung cho trang web

26 233 0
Xây dựng hệ thống thu thập thông tin tự động phục vụ cập nhật nội dung cho trang web

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Header Page of 126 -1- BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TRẦN HỮU PHÚ XÂY DỰNG HỆ THỐNG THU THẬP THÔNG TIN TỰ ĐỘNG PHỤC VỤ CẬP NHẬT NỘI DUNG CHO TRANG WEB Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 60.48.01 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2011 Footer Page of 126 Header Page of 126 -2- Cơng trình hồn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS PHAN HUY KHÁNH Phản biện 1: PGS.TSKH TRẦN QUỐC CHIẾN Phản biện 2: PGS.TS LÊ MẠNH THẠNH Luận văn ñược bảo vệ Hội ñồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp Đại học Đà Nẵng vào ngày 16 tháng 10 năm 2011 Có thể tìm hiểu luận văn tại: • Trung tâm Thơng tin - Học liệu, Đại học Đà Nẵng • Trung tâm Học liệu, Đại học Đà Nẵng Footer Page of 126 -3- Header Page of 126 MỞ ĐẦU Lý chọn đề tài Sự phát triển nhanh chóng mạng Internet kèm theo khối lượng liệu khổng lồ, đa dạng tăng trưởng khơng ngừng Đối với cá nhân, tổ chức, việc cập nhật thường xuyên nguồn thông tin mạng Internet quan trọng, định đến hiệu quả, thành cơng, lĩnh vực hoạt động Tuy nhiên, việc tìm kiếm thơng tin phù hợp có giá trị ñối với người truy cập từ mạng Internet tốn thời gian liệu nằm phân tán mạng khơng xếp, phân loại mong muốn Do đó, việc tìm kiếm, trích lọc thu thập thơng tin có ý nghĩa từ Internet ñiểm truy cập tập trung phục vụ nhu cầu người khai thác tốn cần thiết giải Nhu cầu thu thập phát lại thơng tin cần thiết từ internet trang TTĐT Quảng Nam lớn Là cán ñang công tác Sở Thông Tin & Truyền Thông Quảng Nam, đơn vị quản lý cổng TTĐT này, tơi thiết nghĩ cần thiết phải ñưa giải pháp xây dựng hệ thống thu thập thơng tin tự động phục vụ cập nhật nội dung cho trang TTĐT Từ lý nên tơi chọn đề tài: "Xây dựng hệ thống thu thập thơng tin tự động phục vụ cập nhật nội dung cho trang web" Các nội dung nghiên cứu luận văn : - Tìm hiểu tổng quan kỹ thuật thu thập thơng tin Internet, tổng quan khai phá liệu, thuật toán phân cụm liệu Footer Page of 126 Header Page of 126 - -4- Tiếp cận tốn Tìm kiếm phân cụm tài liều web ứng dụng thuật toán K-means kỹ thuật tiền xử lý biểu diễn liệu - Áp dụng Bài tốn Tìm kiếm phân cụm tài liệu web vào việc Xây dựng hệ thống thu thập tin tự ñộng hỗ trợ thu thập biên tập tin tức từ nguồn Internet, phục vụ nhu cầu người truy cập cách tập trung tin tức liên quan ñến chủ ñề cần thu thập Trang TTĐT Quảng Nam Mục tiêu nhiệm vụ Nắm vững sở lý thuyết khai phá liệu kỹ thuật phân cụm tài liệu web, qua xây dựng hệ thống thu thập thơng tin tự ñộng phục vụ cập nhật nội dung trang TTĐT Quảng Nam, kết thực nghiệm ñáp ứng yêu cầu ñề Đối tượng phạm vi nghiên cứu Khai phá liệu lĩnh vực rộng lớn ngành khoa học máy tính, phân cụm tài liệu web lĩnh vực ứng dụng ñiển hình khai phá liệu, nhiên có nhiều kỹ thuật thơng qua nhiều thuật tốn cho toán phân cụm liệu, phạm vi ñề tài này, chủ yếu tập trung ñi vào nghiên cứu lý thuyết phân cụm tài liệu web thuật tốn, trọng tâm vào phân tích, ứng dụng thuật tốn K-Means để tiến hành cài đặt ứng dụng thực nghiệm Phương pháp nghiên cứu Trong ñề tài sử dụng phương pháp nghiên cứu lý thuyết kết hợp với phát triển ứng dụng thực nghiệm Trên sở lý thuyết khai phá liệu, cụ thể lý thuyết phân cụm liệu thuật toán phân cụm tài liệu, tiến hành cài đặt phân tích tối Footer Page of 126 Header Page of 126 -5- ưu thuật tốn, đến chọn lựa thuật tốn phù hợp cho việc triển khai xây dựng ứng dụng thực nghiệm Tiến hành ñánh giá kết thực nghiệm ñể ñưa hướng phát triển mở rộng ñề tài ñể ñáp ứng yêu cầu triển khai thực tế Ý nghĩa khoa học thực tiễn ñề tài Về mặt lý thuyết: ñề tài tổng hợp sở lý thuyết khai phá liệu, phân cụm tài liệu, phân tích phương pháp phân cụm, cài ñặt ñánh giá hiệu thuật tốn phân cụm từ chọn thuật tốn tối ưu ñể triển khai thực nghiệm Về mặt thực tiễn: với việc phát triển triển khai thực nghiệm ứng dụng thu thập tin tự ñộng Internet, ñề tài ứng dụng vào thực tế hỗ trợ cho việc thu thập biên tập tin tức cho Trang thơng tin điện tử tỉnh Quảng Nam, ñem lại hiệu kinh tế nhờ tiết kiệm thời gian chi phí Cấu trúc luận văn Ngồi phần mở đầu, phần kết luận, mục lục, danh mục hình vẽ, danh mục bảng biểu, tài liệu tham khảo, phụ lục, phần luận văn gồm chương sau : Chương 1: Nguyên cứu tổng quan Chương : Phân tích thiết kế hệ thống Chương : Xây dựng triển khai hệ thống Footer Page of 126 Header Page of 126 -6- Chương 1: NGHIÊN CỨU TỔNG QUAN 1.1 Tổng quan kỹ thuật thu thập thơng tin Internet Có nhiều hình thái thu thập bóc tách thơng tin ñã ñược nghiên cứu phát triển Chúng ta có loạt khái niệm Robot, Search, Web Crawler, Data Wrapper, Web Spider, Web Clipping, Semantic Web, ñể mơ tả hình thái khai thác nội dung thơng tin Internet Xin lấy mơ hình tìm kiếm ví dụ: Nội dung sau khai thác lưu trữ hệ thống database phát hành lại tới người dùng trực tiếp thông qua hệ thống tích hợp, tìm kiếm, lọc, chia sẻ ñặt tả, hay sử dụng cho mục ñích chuyên biệt Google minh chứng cụ thể cho giải pháp đó, Website tồn Internet ñược Google Crawler ghé thăm thu thập lại toàn bộ, sau nội dung lưu trữ sở liệu, ñược ñánh mục, ñược tìm kiếm có u cầu từ phía người dùng Một sản phẩn khác GoogleNews lại có nhiệm vụ tổng hợp tất tin tức diễn hàng ngày Internet Ở Việt nam, ta tìm kiếm mơ hình tương tự Baomoi.com hay Thegioitin.com, VietSpider, InewsCrawler Có nhiều giải pháp khác RSS, phân tích DOM, web clustering (phân cụm tài liệu web) Trong khóa luận ta chọn giải pháp web clustering 1.2 Tổng quan Khai phá liệu 1.2.1 Khái niệm Khai phá liệu Khai phá liệu (Data Mining) khái niệm ñời vào năm cuối thập kỷ 1980 Nó q trình trích xuất thơng tin có giá trị tiềm ẩn bên lượng lớn liệu ñược lưu trữ CSDL, kho liệu Đây giai đoạn quan trọng tiến trình Phát tri thức từ sở liệu, tri thức hỗ Footer Page of 126 Header Page of 126 -7- trợ việc ñịnh khoa học kinh doanh hoạt ñộng khác 1.2.2 Quá trình phát tri thức Quá trình Phát trị thức tiến hành qua giai đoạn hình 1.1: Hình 1.1 : Q trình phát tri thức Bắt đầu q trình kho liệu thô kết thúc với tri thức chiết xuất Về lý thuyết ñơn giản thực ñây trình khó khăn gặp phải nhiều vướng mắc như: quản lý tập liệu, phải lặp ñi lặp lại tồn q trình, v.v Q trình gồm bước: (1) Gom liệu (2) Trích lọc liệu 3) Làm sạch, tiền xử lý chuẩn bị trước liệu 4) Chuyển ñổi liệu (5) Khai phá liệu (6) Đánh giá luật biểu diễn tri thức 1.2.3 Quá trình khai phá liệu Khai phá liệu giai ñoạn quan trọng trình phát tri thức Về chất, giai đoạn tìm Footer Page of 126 Header Page of 126 -8- thơng tin mới, thơng tin tiềm ẩn có CSDL chủ yếu phục vụ cho mô tả dự đốn Q trình Khai phá liệu bao gồm bước thể Hình 1.2 sau: Hình 1.2: Q trình Khai phá liệu • Xác ñịnh nhiệm vụ: Xác ñịnh xác vấn ñề cần giải • Xác định liệu liên quan: Dùng để xây dựng giải pháp • Thu thập tiền xử lý liệu: Thu thập liệu liên quan tiền xử lý chúng cho thuật tốn KPDL hiểu Đây q trình khó khăn, gặp phải nhiều vướng mắc như: liệu phải ñược nhiều (nếu ñược chiết xuất vào tệp), quản lý tập liệu, phải lặp ñi lặp lại nhiều lần tồn q trình (nếu mơ hình liệu thay đổi), v.v • Thuật tốn khai phá liệu: Lựa chọn thuật toán KPDL thực việc KPDL để tìm mẫu có ý nghĩa, mẫu ñược biểu diễn dạng luật kết hợp, ñịnh tương ứng với ý nghĩa Footer Page of 126 Header Page of 126 -9- 1.2.4 Các phương pháp khai phá liệu Với hai mục đích khai phá dư liệu Mơ tả Dự đốn, người ta thường sử dụng phương pháp sau cho khai phá liệu: - Luật kết hợp (association rules) - Phân lớp (Classfication) - Hồi qui (Regression) - Trực quan hóa (Visualiztion) - Phân cụm (Clustering) - Tổng hợp (Summarization) - Mơ hình ràng buộc (Dependency modeling) - Biểu diễn mơ hình (Model Evaluation) - Phân tích phát triển độ lệch (Evolution and deviation analyst) - Phương pháp tìm kiếm (Search Method) Có nhiều phương pháp khai phá liệu nghiên cứu trên, có phương pháp ñược nhà nghiên cứu sử dụng nhiều ñó là: Luật kết hợp, Phân lớp liệu Phân cụm liệu 1.2.5 Các tốn thơng dụng Khai phá liệu Trong Khai phá liệu, tốn phân thành loại chính: Phân lớp liệu, Dự đốn liệu, Tìm luật liên kết (Association Rule), Phân cụm liệu 1.3 Phân cụm liệu 1.3.1 Khái niệm Phân cụm liệu Phân cụm liệu kỹ thuật Data Mining, nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn, quan tâm tập liệu lớn, từ cung cấp thơng tin, tri thức hữu ích cho định Footer Page of 126 Header Page 10 of 126 - 10 - Trong học máy, phân cụm liệu ñược xem vấn đề học khơng có giám sát, phải ñi giải vấn ñề tìm cấu trúc tập hợp liệu chưa biết trước thông tin lớp hay thơng tin tập ví dụ huấn luyện Trong lĩnh vực khai thác liệu, vấn ñề nghiên cứu phân cụm chủ yếu tập trung vào tìm kiếm phương pháp phân cụm hiệu tin cậy sở liệu lớn Trong lĩnh vực khai phá liệu Web, phân cụm khám phá nhóm tài liệu quan trọng, có nhiều ý nghĩa mơi trường Web Các lớp tài liệu trợ giúp cho việc khám phá tri thức từ liệu 1.3.2 Ứng dụng Phân cụm liệu Phân cụm liệu ñược ứng dụng nhiều lĩnh vực như: thương mại, sinh học, thư viện, bảo hiểm, quy hoạch thị, nghiên cứu trái ñất, WWW… 1.3.3 Các tiêu chuẩn Phân cụm liệu Phân cụm thách thức lĩnh vực nghiên cứu chỗ ứng dụng tiềm chúng đưa yêu cầu ñặc biệt chúng Sau ñây yêu cầu phân cụm KPDL: - Có khả mở rộng - Khả thích nghi với kiểu thuộc tính khác - Khám phá cụm với hình dạng - Tối thiểu lượng tri thức cần cho xác ñịnh tham số đầu vào Khả thích nghi với liệu nhiễu - Ít nhạy cảm với thứ tự liệu vào - Số chiều lớn - Phân cụm có tính ràng buộc Footer Page 10 of 126 Header Page 12 of 126 - 12 - không gian d chiều Xi =(xi1,xi2,…xid)(i= 1, n ) cho hàm tiêu chuẩn: ñạt giá trị tối thiểu Trong ñó: mi trọng tâm cụm Ci, khoảng cách hai ñối tượng 1.4 Đề xuất giải pháp 1.4.1 Đặt vấn đề Máy tìm kiếm giúp tìm kiếm thơng tin cần thiết phân tán mạng internet, danh sách tài liệu trả theo truy vấn ñã ñược xác ñịnh thứ hạng quan trọng nó, thơng thường người dùng khó đưa định xác tài liệu khả gây nhập nhằn danh sách trả người dùng khơng đủ kiên nhẫn ñể duyệt qua tất tài liệu Để thu thập thơng tin có ý nghĩa đưa giải pháp là: phân cụm tài liệu trả từ máy tìm kiếm để chọn cụm tài liệu phù hợp phục vụ cho mục đích sử dụng Như vậy, giải pháp đưa ñồng nghĩa với việc ñi giải tốn tìm kiếm phân cụm tài liệu web Trên sở áp dụng lý thuyết khai phá liệu, ñi giải tốn 1.4.2 Các u cầu • Tính phù hợp • Tính đa hình • Sử dụng mẩu thơng tin • Tốc độ • Tính gia tăng 1.4.3 Hướng tiếp cận Footer Page 12 of 126 Header Page 13 of 126 - 13 - Thay dựa vào liên kết trang ñể xác ñịnh trọng số cho trang, ta tiếp cận theo hướng khác dựa vào nội dung tài liệu ñể xác ñịnh trọng số, tài liệu "gần nhau" nội dung quan trọng tương đương thuộc nhóm, nhóm gần với câu truy vấn quan trọng Cách tiếp cận giải ñược vấn ñề sau: + Kết tìm kiếm phân thành cụm chủ ñề khác nhau, tùy vào yêu cầu cụ thể mà người dùng xác ñịnh chủ ñề mà họ cần + Q trình tìm kiếm xác định trọng số cho trang chủ yếu tập trung vào nội dung trang dựa vào liên kết trang + Giải ñược vấn ñề từ/cụm từ ñồng nghĩa câu truy vấn người dùng + Có thể kết hợp phương pháp phân cụm lĩnh vực khai phá liệu với phương pháp tìm kiếm có 1.4.4 Q trình tìm kiếm phân cụm tài liệu Quá trình bao gồm bước sau: 1.4.4.1 Tìm kiếm liệu web Nhiệm vụ chủ yếu giai đoạn dựa vào tập từ khóa tìm kiếm để tìm kiếm trả tập gồm tồn văn tài liệu, tiêu đề, mơ tả tóm tắt tài liệu, URL,… tương ứng với trang Dữ liệu ñược lưu trữ vào CSDL ñể tiếp tục ñược xử lý 1.4.4.2 Tiền xử lý biểu diễn liệu Quá trình làm liệu chuyển dịch tài liệu thành dạng biểu diễn thích hợp bao gồm bước: • Chuẩn hóa văn • Xóa bỏ từ dừng • Kết hợp từ có gốc Footer Page 13 of 126 Header Page 14 of 126 - 14 - • Xây dựng từ điển • Tách từ, số hóa văn biểu diễn tài liệu 1.4.4.3 Phân cụm tài liệu: Sau ñã tìm kiếm, trích rút liệu tiền xử lý, sử dụng kỹ thuật phân cụm ñể phân cụm tài liệu thuật tốn K-means nêu 1.4.5 Ứng dụng Với hướng tiếp cận trên, tốn Tìm kiếm Phân cụm tài liệu web áp dụng việc xây dựng hệ thống thu thập tin tự động Việc tìm kiếm thơng tin internet ñược tận dụng mạnh Search Engine Internet nay, việc phân cụm kết tìm kiếm thuật tốn K-means đem lại cụm tài liệu với ñộ tương tự tài liệu cụm cao từ hỗ trợ người dùng ñịnh việc chọn lựa cụm tài liệu ñể phục vụ cho mục đích Footer Page 14 of 126 Header Page 15 of 126 - 15 - Chương 2: PHÂN TÍCH THIẾT KẾ HỆ THỐNG 2.1 Hiện trạng nhu cầu Xây dựng hệ thống thu thập thơng tin tự động phục vụ cập nhật nội dung cho trang TTĐT việc làm cần thiết Trang TTĐT Quảng nam có số lượng truy cập lớn nhu cầu tìm kiếm thơng tin ñó cao Hiện chủ ñề “Xây dựng nơng thơn mới” chủ đề quan tâm nhất, thơng tin chủ đề đăng nhiều báo bộ, ngành, ñịa phương cần ñược thu thập trang TTĐT Quảng Nam ñể phục vụ nhu cầu nhân dân tỉnh Các thơng tin thu thập đăng tải lại trang TTĐT Quảng Nam phải có nội dung thật phù hợp với chủ đề thơng tin thống, khơng lấy từ nguồn báo không rõ ràng 2.2 Yêu cầu hệ thống 2.2.1 Cơ sở lý thuyết áp dụng - Hệ thống ñược xây dựng sở áp dụng phương pháp phân cụm tài liệu web trả máy tìm kiếm - Thuật tốn phân cụm áp dụng thuật toán K-means (với số cụm tùy chọn) - Các lý thuyết hỗ trợ ñộ ño dộ tương tự, chuẩn hóa, tách từ, biễu diễn liệu theo vecto khơng gian áp dụng 2.2.2 Xác định yêu cầu hệ thống 2.2.2.1 Yêu cầu phi chức - Hệ thống phát triển để tích hợp phục vụ cho trang TTĐT Quảng Nam phải thiết kế tn theo mơ hình Portal ñang sử dụng (Liferay) - Đảm bảo yếu tố tốc ñộ trình xử lý thu thập phân cụm tài liệu Footer Page 15 of 126 Header Page 16 of 126 - 16 - - Hệ thống ñược xây dựng với module chức chuyên trách giao diện dễ sử dụng, tạo ñiều kiện dễ dàng cho người biên tập tin 2.2.2.2 Yêu cầu chức Đối với thành viên Ban biên tập: - Hệ thống cho phép quản lý cấu hình hệ thống - Có thể xem kết tập tài liệu tìm kiếm theo từ khóa trả từ máy chủ Google - Có thể xem ñược kết phân cụm - Có thể xuất tài liệu cụm tài liệu lên trang chủ Đối với người truy cập vào Trang TTĐT: - Có thể xem tin tức ñược thu thập từ Internet trang chủ - Tin tức ñược hiển thị bao gồm tiêu ñề trích dẫn, ñể xem chi tiết tin bài, người dùng kích chuột vào tiêu đề viết trích dẫn 2.3 Mơ hình hoạt động hệ thống Q trình hoạt động hệ thống thực qua giai ñoạn sau ñây: Giai ñoạn 1: Lấy liệu trả từ máy tìm kiếm theo nội dung truy vấn Đễ lấy ñược liệu danh sách trả từ máy tìm kiếm, chức Crawler thực download tài liệu lưu trữ vào sở liệu Giai ñoạn 2: ñây giai ñoạn chuẩn bị liệu bao gồm tiền xử lý, chuẩn hóa biểu diễn liệu trước thực phân cụm Giai ñoạn 3: chức phân cụm tài liệu tiến hành phân cụm liệu ñã thu thập thành cụm với ñộ tương tự tài liệu cụm gần Giai ñoạn 4: ñánh giá lựa chọn cụm tài liệu ñể phát hành lên trang chủ website Footer Page 16 of 126 Header Page 17 of 126 - 17 - Hình minh họa mơ hình hoạt động hệ thống: Hình 2.2: Mơ hình hoạt ñộng hệ thống thu thập tin tự ñộng 2.4 Chức hệ thống Dựa mơ hình hoạt ñộng hệ thống ta thiết kế thành phần chức sau: Quản lý hệ thống: quản lý cấu hình hệ thống Lập từ điển:Xây dựng từ ñiển ñể phục vụ cho việc tách từ vecto hóa tài liệu chuẩn bị cho trình phân cụm tài liệu Lấy liệu:Thành phần Crawler hệ thống download tập tài liệu từ danh sách trả máy tìm kiếm sau ñó lưu vào CSDL ñể tiếp tục tiền xử lý trước Footer Page 17 of 126 Header Page 18 of 126 - 18 - phân cụm Xử lý liệu phân cụm:Hệ thống tiến hành tiền xử lý liệu trả từ máy chủ tìm kiếm thực phân cụm Đầu cụm liệu ñược gom theo chủ ñề nhỏ với mức ñộ tương ñồng tài liệu cụm Đánh giá chọn kết xuất bản:Đây bước người biên tập ñưa ñịnh chọn cụm tài liệu cần xuất lên trang chủ Quá trình thiết lập tự động dựa vào tiêu chí đánh giá độ tương tự cụm với chủ ñề theo tiêu chuẩn ñánh giá ñịnh trước Biễu diễn tài liệu trang chủ: liệu ñược phát hành lên trang chủ phục vụ nhu cầu truy cập 2.5 Phân tích thiết kế hệ thống 2.5.1 Xác ñịnh Actor - Người biên tập: quản lý trình thu thập, xử lý, phân cụm xuất tài liệu - Người truy cập: Xem tài liệu ñược xuất trang chủ 2.5.2 Xác ñịnh Use Case Ta xác ñịnh ñược use case sau ñây: Đăng nhập, Quản lý hệ thống, Lấy liệu, Xây dựng từ ñiển, Xử lý phân cụm, Xuất tài liệu, Truy cập tài liệu Footer Page 18 of 126 Header Page 19 of 126 - 19 - 2.5.3 Sơ đồ Use Case Hình 2.3 : Sơ đồ Use case hệ thống thu thập tin tự ñộng 2.5.4 Đặc tả Use Case Bao gồm ca sử dụng ñược ñặc tả với thông tin : tác nhân, mơ tả, tiền điều kiện, hậu điều kiện Các use case bao gồm: Xây dựng từ ñiển, Lấy liệu, Xử lý phân cụm, Xuất tài liệu, Truy cập tài liệu 2.5.5 Biểu đồ Chúng ta có biểu ñồ sau: Đăng nhập, Quản lý, Xây dựng từ ñiển, Lấy liệu, Xử lý phân cụm, Xuất tài liệu, Truy cập tài liệu Footer Page 19 of 126 Header Page 20 of 126 - 20 - 2.5.6 Biểu ñồ hoạt ñộng Xây dựng biểu ñồ hoạt ñộng cho ca sử dụng Lấy liệu 2.5.7 Biểu đồ lớp Dựa vào mơ tả hệ thống Use case, ta xác định lớp hệ thống thu thập tin tự ñộng sau: Lớp Dictionary : lưu trữ thơng tin từ điển Lớp Document : lưu trữ tài liệu ñược lấy từ internet Lớp Cluster: lưu trữ thông tin cụm liệu sau phân cụm Lớp DocumentIndex: Lưu trữ thơng tin q trình làm liệu tách từ Lớp ClusterIndex: Lưu trữ kết phân cụm 2.5.8 Thiết kế sở liệu 2.5.8.1 Các bảng liệu Document, Dictionary, Cluster, DocumentIndex, ClusterIndex 2.5.8.1 Mơ hình sở liệu quan hệ Hình 2.13: Mơ hình sở liệu quan hệ Footer Page 20 of 126 Header Page 21 of 126 - 21 - Chương 3: XÂY DỰNG VÀ TRIỂN KHAI HỆ THỐNG 3.1 Giải pháp kỹ thuật công nghệ 3.1.1 Tìm hiểu cơng nghệ Liferay Portal Tìm hiểu tảng cơng nghệ Portal Liferay mơ hình phát triển tích hợp thành phần mở rộng 3.1.2 Thiết lập môi trường phát triển - Công cụ phát triển ứng dụng Java - Cơ sở liệu MySQL - Máy chủ ứng dụng TomCat - Môi trường phát triển tích hợp Eclipse IDE - Triển khai Ext - Thiết lập môi trường công cụ phát triển bổ sung (Plugin SDK) 3.2 Xây dựng ứng dụng Ứng dụng ñược xây dựng module sau: - Module Lập từ ñiển liệu Module Lấy liệu Module Xử lý phân cụm Module quản lý hệ thống Module hiển thị tin trang chủ 3.3 Triển khai ứng dụng - Các module sau lập trình ñược ñóng gói thành dạng Portlet cài ñặt vào hệ thống Portal - Hệ thống Portal ñược cài ñặt máy chủ thực thi web server Apache Tomcat - Hệ ñiều hành máy chủ MS Window 2003 Server - Cấu hình máy chủ tối thiểu (thử nghiệm): CPU Intel core duo, DDR Gb Footer Page 21 of 126 Header Page 22 of 126 - 22 - 3.3 Thử nghiệm hệ thống 3.3.1 Dữ liệu - Truy vấn vào máy chủ Google với từ khóa “Nơng thơn mới” - Chỉ lấy 200 tài liệu ñầu tiên tư danh sách trả máy tìm kiếm để phục vụ việc xử lý phân cụm 3.3.2 Kịch sử dụng - Để tiến hành thu thập thông tin cho trang TTĐT Quảng Nam: - Người biên tập cung cấp từ khóa theo chủ đề định trước, từ khóa “Nơng thơn mới” lệnh tìm kiếm - Hệ thống tự động chuyển truy vấn ñến máy chủ Google kết trả ñược hiển thị cho người sử dụng xem hình hệ thống - Hệ thống đồng thời tiến hành việc trích lọc tài liệu trả từ Google có địa Việt Nam lưu vào sở liệu - Quá trình làm liệu ñược tiến hành tự ñộng - Người dùng lệnh phân cụm tập liệu xem kết phân cụm - Với kết phân cụm nhận ñược người dùng cho xuất khơng xuất nhiều cụm - Sau xuất bản, tin tức ñược hiển thị lên trang chủ thuộc chuyên mục chủ ñề cần thu thập dạng tiêu ñề trích lượt - Người truy cập xem tin, hệ thống chuyển hướng trang sang phần xem chi tiết web nguồn, nhiên hiển thị phạm vi trang TTĐT Quảng Nam Footer Page 22 of 126 Header Page 23 of 126 - 23 - 3.4 Quá trình chạy thử nghiệm Hình 3.15: Màn hình lấy liệu Hình 3.16 : Màn hình phân cụm liệu Footer Page 23 of 126 Header Page 24 of 126 - 24 - Hình 3.17 : Kết xuất tin tức Nông thôn lên trang chủ website 3.5 Đánh giá kết thử nghiệm Kết thử nghiệm hệ thống ñáp ứng yêu cầu ñề chất lượng phân cụm, tốc ñộ xử lý phân cụm Footer Page 24 of 126 Header Page 25 of 126 - 25 - KẾT LUẬN VÀ KIẾN NGHỊ Các vấn ñề ñã ñược nghiên cứu, tìm hiểu luận văn: Nghiên cứu tổng quan Data Mining ứng dụng Data Mining chủ yếu nghiên cứu kỹ thuật phân cụm liệu Trọng tâm vào tìm hiểu cài đặt thuật tốn K-means, ứng dụng thuật tốn K-means tiếp cận tốn Tìm kiếm phân cụm tài liệu Web, tốn sở để áp dụng xây dựng hệ thống thu thập tin tự ñộng Internet Đã tìm hiểu kỹ thuật xử lý, chuẩn hóa biểu diễn tài liệu Đây kỹ thuật quan trọng lĩnh vực khai phá văn web Đã xây dựng thử nghiệm hệ thống thu thập tin tự ñộng cho trang TTĐT tỉnh Quảng Nam dựa sở lý thuyết tìm hiểu, nghiên cứu Kết thử nghiệm hệ thống ñáp ứng yêu cầu ñề Hạn chế ñề tài: Do thời gian khả kiến thức, khóa luận cịn hạn chế sau: -Chưa vào nghiên cứu kỹ hướng tiếp cận phân cụm liệu, phân tích, so sánh thuật tốn để đánh giá thực chất chất lượng phân cụm Từ lựa chọn giải pháp tối ưu - Vấn ñề xử lý tài liệu tiếng Việt có ảnh hưởng lớn đến chất lượng phân cụm, truy nhiên khóa luận chưa ñi sâu vào vấn ñề - Ứng dụng ñược xây dựng mức ñộ thử nghiệm nhằm thực nghiệm lý thuyết tìm hiểu, để triển khai thực tế cần phát triển hồn chỉnh tính q trình thu thập phân cụm thiết lập tự ñộng theo ñịnh kỳ việc xuất cụm chủ ñề tự ñộng dựa vào tiêu chuẩn ñịnh trước Hướng nghiên cứu Footer Page 25 of 126 Header Page 26 of 126 - 26 - Tiếp tục nghiên cứu kỹ thuật phân cụm liệu, nhấn mạnh đến kỹ thuật phân cụm K-Means mở rộng, thời gian tuyến tính ñáp ứng ñược yêu cầu toán phân cụm tài liệu Web Ngoài ra, cần nghiên cứu kỹ các kỹ thuật xử lý tiếng Việt, ñây kỹ thuật quan trọng việc tiền xử lý Vectơ hóa tài liệu, có ảnh hưởng lớn đến chất lượng phân cụm tài liệu Phát triển hệ thống với đầy đủ tính năng, đáp ứng việc triển khai sử dụng thực tế, ñem lại hiệu kinh tế nhờ tiết kiệm thời gian, công sức chi phí cho việc sưu tầm xuất lại tin tức Ban biên tập trang TTĐT tỉnh Quảng Nam Footer Page 26 of 126 ... chọn đề tài: "Xây dựng hệ thống thu thập thông tin tự ñộng phục vụ cập nhật nội dung cho trang web" Các nội dung nghiên cứu luận văn : - Tìm hiểu tổng quan kỹ thu? ??t thu thập thơng tin Internet,... Sở Thông Tin & Truyền Thông Quảng Nam, đơn vị quản lý cổng TTĐT này, tơi thiết nghĩ cần thiết phải ñưa giải pháp xây dựng hệ thống thu thập thơng tin tự động phục vụ cập nhật nội dung cho trang. .. thập Trang TTĐT Quảng Nam Mục tiêu nhiệm vụ Nắm vững sở lý thuyết khai phá liệu kỹ thu? ??t phân cụm tài liệu web, qua xây dựng hệ thống thu thập thơng tin tự ñộng phục vụ cập nhật nội dung trang

Ngày đăng: 20/05/2017, 05:02

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan