Nghiên cứu một số kỹ thuật lấy tin tự động trên internet

ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN  TRƯƠNG MẠNH HÀ NGHIÊN CỨU MỘT SỐ KỸ THUẬT LẤY TIN TỰ ĐỘNG TRÊN INTERNET Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: TS Phạm Việt Bình Thái Nguyên - Năm 2009 Số hóa Trung tâm Học liệu – Đại học Thái Ngun http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tơi xin cam đoan tồn nội dung luận văn tự sưu tầm, tra cứu xếp cho phù hợp với nội dung yêu cầu đề tài Nội dung luận văn chưa công bố hay xuất hình thức khơng chép từ cơng trình nghiên cứu Tất phần mã nguồn chương trình tơi tự thiết kế xây dựng, có sử dụng số thư viện chuẩn thuật toán tác giả xuất cơng khai miễn phí mạng Internet Nếu sai tơi xin tơi xin hồn tồn chịu trách nhiệm Thái Nguyên, ngày 11 tháng 11 năm 2009 Người cam đoan Trương Mạnh Hà Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Sự phát triển nhanh chóng mạng Internet sinh khối lượng khổng lồ liệu dạng siêu văn (dữ liệu Web) Các tài liệu siêu văn chứa đựng văn thường nhúng liên kết đến tài liệu khác phân bố Web Ngày nay, Web bao gồm hàng tỉ tài liệu hàng triệu tác giả tạo phân tán qua hàng triệu máy tính kết nối qua đường dây điện thoại, cáp quang, sóng radio Web ngày sử dụng phổ biến nhiều lĩnh vực báo chí, phát thanh, truyền hình, hệ thống bưu điện, trường học, tổ chức thương mại, phủ Chính lĩnh vực Web mining hay tìm kiếm tự động thơng tin phù hợp có giá trị Web chủ đề quan trọng Data Mining vấn đề quan trọng đơn vị, tổ chức có nhu cầu thu thập tìm kiếm thơng tin Internet [2] Các hệ thống tìm kiếm thơng tin hay nói ngắn gọn máy tìm kiếm Web thơng thường trả lại danh sách tài liệu phân hạng mà người dùng phải tốn công chọn lọc danh sách dài để có tài liệu phù hợp Ngồi thơng tin thường phong phú, đa dạng liên quan đến nhiều đối tượng khác Điều tạo nên nhập nhằng gây khó khăn cho người dụng việc lấy thơng tin cần thiết Có nhiều hướng tiếp cận khác để giải vấn đề này, hướng thường ý giảm nhập nhằng phương pháp lọc hay thêm tùy chọn để cắt bớt thông tin hướng biểu diễn thông tin trả máy tìm kiếm thành cụm người dùng dễ dàng tìm thơng tin mà họ cần Đã có nhiều thuật toán phân cụm tài liệu dựa phân cụm ngoại tuyến toàn tập tài liệu Tuy nhiên việc tập hợp tài liệu máy tìm kiếm lớn ln thay đổi để phân cụm ngoại tuyến Do Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn đó, việc phân cụm phải ứng dụng tập tài liệu nhỏ trả từ truy vấn thay trả danh sách dài thông tin gây nhập nhằng cho người sử dụng cần có phương pháp tổ chức lại kết tìm kiếm cách hợp lý Do vấn đề cấp thiết đề cập nên em chọn đề tài: "Nghiên cứu số kỹ thuật lấy tin tự động internet" Mục tiêu đề tài: Nghiên cứu xây dựng giải pháp phát triển hệ thống phần mềm thu thập, đánh giá phân cụm thông tin tự động Internet phục vụ cho việc nghiên cứu, học tập, giảng dạy Ngoài phần mở đầu, phần kết luận, mục lục, tài liệu tham khảo, phụ lục, luận văn gồm chương: - Chương 1: Khái quát khai phá liệu phân cụm tài liệu Web Giới thiệu số khái niệm khai phá liệu, khai phá liệu web, hướng tiếp cận, ứng dụng khai phá liệu, nêu toàn phân cụm tài liệu Web - Chương 2: Một số thuật toán phân cụm tài liệu Nghiên cứu số kỹ thuật phân cụm tài liệu liên quan, tư tưởng thuật toán nghiên cứu, nghiên cứu đề xuất phương pháp cải tiến - Chương 3: Ứng dụng lấy tin tự động Ứng dụng xây dựng toán Thu thập liệu Kinh tế Internet Để hoàn thành luận văn Cao học, em xin gửi lời cảm ơn tới thầy Viện Công nghệ thông tin, thầy Khoa Cơng nghệ thơng tin tận tình giảng dạy, cung cấp nguồn kiến thức quý giá suốt trình học tập Đặc biệt em xin chân thành cảm ơn TS Phạm Việt Bình, tận tình hướng dẫn, góp ý, tạo điều kiện cho em hồn thành luận văn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Xin chân thành cảm ơn thầy cô, anh chị em công tác phịng VRLAB - Viện cơng nghệ thơng tin - Viện khoa học Công nghệ Việt Nam, thầy cô công tác Viện Công nghệ thông tin - Viện khoa học Công nghệ Việt Nam Cảm ơn đồng nghiệp Đỗ Văn Đại cung cấp tài liệu, kinh nghiệm quý báu làm Đồ án tốt nghiệp đại học đồng nghiệp Đỗ Văn Đại giúp cho em q trình nghiên cứu giảm bớt khó khăn việc tiếp cận vấn đề nghiên cứu tài liệu Xin cảm ơn Ban lãnh đạo Khoa Công nghệ thông tin - Đại học Thái Nguyên, lãnh đạo phịng Cơng nghệ thơng tin - Thư viện, tồn thể đồng nghiệp Khoa Công nghệ thông tin - Đại học Thái Nguyên giúp đỡ em thời gian, vật chất tinh thần giúp em hoàn thành tốt nhiệm vụ học tập, cơng tác Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Chương 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ PHÂN CỤM TÀI LIỆU WEB 1.1 Khai phá liệu: Trong thời đại ngày nay, với phát triển vượt bậc công nghệ thông tin, hệ thống thơng tin lưu trữ khối lượng lớn liệu hoạt động hàng ngày Từ khối liệu này, kỹ thuật Khai phá liệu Máy học dùng để trích xuất thơng tin hữu ích mà chưa biết Các tri thức vừa học vận dụng để cải thiện hiệu hoạt động hệ thống thông tin ban đầu Giáo sư Tom Mitchell đưa định nghĩa Khai phá liệu sau: “Khai phá liệu việc sử dụng liệu lịch sử để khám phá qui tắc cải thiện định tương lai.” Với cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad phát biểu: “Khai phá liệu, thường xem việc khám phá tri thức sở liệu, q trình trích xuất thơng tin ẩn, trước chưa biết có khả hữu ích, dạng qui luật, ràng buộc, qui tắc sở liệu” Nói tóm lại, Khai phá liệu trình học tri thức từ liệu thu thập [4] Mơ hình khai phá liệu bao gồm năm giai đoạn chính: - Tìm hiểu nghiệp vụ liệu - Chuẩn bị liệu - Mơ hình hố liệu - Hậu xử lý đánh giá mơ hình - Triển khai tri thức Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Quá trình lặp lại nhiều lần hay nhiều giai đoạn dựa phản hồi từ kết giai đoạn sau Tham gia q trình Khai phá liệu nhà tư vấn phát triển chuyên nghiệp lĩnh vực Khai phá liệu Trong giai đoạn đầu tiên, tìm hiểu nghiệp vụ liệu, nhà tư vấn nghiên cứu kiến thức lĩnh vực áp dụng, bao gồm tri thức cấu trúc hệ thống tri thức, nguồn liệu hữu, ý nghĩa, vai trò tầm quan trọng thực thể liệu Việc nghiên cứu thực qua việc tiếp xúc nhà từ vấn người dùng Khác với phương pháp giải vấn đề truyền thống toán xác định xác bước đầu tiên, nhà tư vấn tìm hiểu yêu cầu sơ khởi người dùng đề nghị tốn tiềm giải với nguồn liệu hữu Tập toán tiềm tinh chỉnh làm hẹp lại giai đoạn sau Các nguồn đặc tả liệu có liên quan đến tập toán tiềm xác định [4] Giai đoạn chuẩn bị liệu sử dụng kỹ thuật tiền xử lý để biến đổi cải thiện chất lượng liệu để thích hợp với yêu cầu giải thuật học Phần lớn giải thuật khai phá liệu làm việc tập liệu đơn phẳng, liệu phải trích xuất biến đối từ dạng sơ liệu phân bố, quan hệ hay hướng đối tượng sang dạng sở liệu quan hệ đơn giản với bảng liệu Các giải thuật tiền xử lý tiêu biểu bao gồm: (a) Xử lý liệu bị thiếu/mất: liệu bị thiếu thay giá trị thích hợp (b) Khử trùng lắp: đối tượng liệu trùng lắp bị loại bỏ Kỹ thuật khơng sử dụng cho tác vụ có quan tâm đến phân bố liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn (c) Giảm nhiễu: nhiễu đối tượng tách rời (outlier) khỏi phân bố chung bị loại khỏi liệu (d) Chuẩn hóa: miền giá trị liệu chuẩn hóa (e) Rời rạc hóa: liệu số biến đổi giá trị rời rạc (f) Rút trích xây dựng đặc trưng từ thuộc tính có (g) Giảm chiều: thuộc tính chứa thơng tin loại bỏ bớt Các toán giải giai đoạn Mơ hình hóa liệu Các giải thuật học sử dụng liệu tiền xử lý giai đoạn hai để tìm kiếm qui tắc ẩn chưa biết Công việc quan trọng giai đoạn lựa chọn kỹ thuật phù hợp để giải vấn đề đặt Các tốn phân loại vào nhóm tốn Khai phá liệu dựa đặc tả chúng [4] Các mơ hình kết giai đoạn ba hậu xử lý đánh giá giai đoạn (d) Dựa đánh giá người dùng sau kiểm tra tập thử, mơ hình tinh chỉnh kết hợp lại cần Chỉ mơ hình đạt mức yêu cầu người dùng đưa triển khai thực tế Trong giai đoạn này, kết biến đổi từ dạng học thuật sang dạng phù hợp với nghiệp vụ dễ hiểu cho người dùng Trong giai đoạn cuối, Triển khai tri thức, mơ hình đưa vào hệ thống thông tin thực tế dạng module hỗ trợ việc đưa định Mối quan hệ chặt chẽ giai đoạn trình Khai phá liệu quan trọng cho việc nghiên cứu Khai phá liệu [3] Một giải thuật Khai phá liệu phát triển độc lập, không quan tâm đến bối cảnh áp dụng mà thường xây dựng để giải mục tiêu cụ thể Do đó, hiểu biết bối cảnh vận dụng cần thiết Thêm vào Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn đó, kỹ thuật sử dụng giai đoạn trước ảnh hưởng đến hiệu giải thuật sử dụng giai đoạn 1.1.1 Các dạng liệu 1.1.1.1 Full text Dữ liệu dạng Full text dạng liệu phi cấu trúc với thông tin gồm tài liệu dạng text Mỗi tài liệu chứa thông tin vấn đề thể qua nội dung tất từ cấu thành tài liệu Ý nghĩa từ tài liệu khơng cố định mà tùy thuộc vào ngữ cảnh khác mang ý nghĩa khác Các từ tài liệu liên kết với theo ngôn ngữ Trong liệu văn liệu phổ biến nhất, có mặt khắp nơi thường xun bắt gặp tốn xử lý văn đặt lâu vấn đề khai phá liệu Text, có tốn đáng ý tìm kiếm văn bản, phân loại văn bản, phân cụm văn dẫn đường văn Cơ sở liệu Full text dạng sở liệu phi cấu trúc mà liệu bao gồm tài liệu thuộc tính tài liệu Cơ sở liệu Full_Text thường tổ chức tổ hợp hai thành phần: Một sở liệu có cấu trúc thơng thường (chứa đặc điểm tài liệu) tài liệu 1.1.1.2 Hypertext Theo từ điển Đại Học Oxford (Oxford English Dictionary Additions Series) Hypertext định nghĩa sau: Đó loại Text khơng phải đọc theo dạng liên tục đơn, đọc theo thứ tự khác nhau, đặc biệt Text ảnh đồ họa (Graphic) dạng có mối liên kết với theo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn cách mà người đọc khơng cần đọc cách liên tục Ví dụ đọc sách người đọc đọc trang từ đầu đến cuối mà nhảy cóc đến đoạn sau để tham khảo vấn đề họ quan tâm Như văn Hypertext bao gồm dạng chữ viết không liên tục, chúng phân nhánh cho phép người đọc chọn cách đọc theo ý muốn Hiểu theo nghĩa thơng thường Hypertext tập trang chữ viết kết nối với liên kết cho phép người đọc đọc theo cách khác Như ta làm quen nhiều với trang định dạng HTML, trang có liên kết trỏ tới phần khác trang trỏ tới trang khác người đọc đọc văn dựa vào liên kết Bên cạnh đó, Hypertext dạng văn Text đặc biệt nên bao gồm chữ viết liên tục (là dạng phổ biến chữ viết) Do không bị hạn chế tính liên tục Hypertext, tạo dạng trình bày mới, tài liệu phản ánh tốt nội dung muốn diễn đạt Hơn người đọc chọn cho cách đọc phù hợp chẳng hạn sâu vào vấn đề mà họ quan tâm Sáng kiến tạo tập văn với trỏ tới văn khác để liên kết tập văn có mối quan hệ với cách thực hay hữu ích để tổ chức thông tin Với người viết, cách cho phép họ thoải mái loại bỏ băn khoăn thứ tự trình bày mà tổ chức vấn đề thành phần nhỏ sử dụng kết nối để mối liên hệ phần nhỏ với Với người đọc, cách cho phép họ tắt mạng thông tin định phần thông tin có liên quan đến vấn đề mà họ quan tâm để tiếp tục tìm hiểu So sánh với cách đọc tuyến tính tức đọc Hypertext cung cấp cho giao diện để tiếp xúc với nội dung thơng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn tới website cung cấp RSS, chương trình trích rút đường dẫn tới tập tin RSS cho người dùng lựa chọn Hình 3.12: Biểu đồ - Thêm đường dẫn link Thêm nhóm tin: Là thao tác mà người dùng thêm nhóm để phân loại tin tức Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 56 http://www.lrc-tnu.edu.vn Hình 3.13: Biểu đồ - Thêm nhóm tin Sắp xếp, phân loại nhóm tin: Hình 3.14: Biểu đồ - Sắp xếp nhóm tin Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 57 http://www.lrc-tnu.edu.vn Tìm kiếm tin tức: Trước hết người dùng chọn chế độ tìm kiếm, tìm kiếm tin tức hệ thống hay tìm kiếm Google search Hình 3.15: Biểu đồ - Tìm kiếm thơng tin Quản lý người dùng: Đây thao tác dành cho người dùng có quyền quản trị Quản trị viên cung cấp tài khoản cho người dùng, xố tài khoản người dùng, quản lý trang tin cá nhân người dùng Hình 3.16: Biểu đồ - Quản lý người dùng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 58 http://www.lrc-tnu.edu.vn 3.3 Thiết kế sở liệu 3.3.1 Đặc tả chi tiết bảng liệu Bảng Urls: chứa thông tin địa website chứa kênh tin tblUrls STT Tên trường Kiểu liệu Độ dài Diễn giải Ghi UrlID int Khố Mã địa uLink nvachar 50 Khác rỗng Đường dẫn tới website uTitle nvarchar 50 Tiêu đề website uDescription nvarchar 50 Đặc tả website Bảng 3.1: Bảng Urls (địa website) Bảng Channels: chứa thông tin kênh tin tức tblChannels STT Tên trường Kiểu liệu Độ dài Diễn giải Ghi ChannelID int Khoá Mã kênh tin cLink nvachar 50 Khác rỗng Đường dẫn tới file RSS cTitle nvarchar 50 Khác rỗng Tiêu đề kênh tin cDescription navarchar MAX Khác rỗng Đặc tả chi tiết kênh tin LastUpdated dateTime Khác rỗng Thời gian cập nhật kênh tin ItemCount int Khác rỗng Số lượng tin tức có kênh tin Bảng 3.2: Bảng Channels (kênh tin) Bảng Items: chứa thông tin tin tức mà hệ thống bóc tách lấy tblItems STT Tên trường Kiều liệu Độ dài Diễn giải Ghi ItemID int Khố Mã tin tức ChannelID int Khác rỗng Mã kênh tin iLink nvarchar 50 Khác rỗng Đường dẫn tới chi tiết tin tức iTitle nvarchar 50 Khác rỗng Tiêu đề tin tức iDescription nvarchar MAX Khác rỗng Nội dung chi tiết tin tức iPubDate datetime iAuthor nvarchar Ngày xuất tin 50 Tác giả viết tin Bảng 3.3: Bảng Items (tin tức) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 59 http://www.lrc-tnu.edu.vn Bảng Group: chứa thơng tin nhóm tin người sử dụng tblGroup STT Tên trường Kiểu liệu Độ dài Diễn giải Ghi GroupID int Khố Mã nhóm GroupName nvachar 50 Khác rỗng Tên nhóm UserName nvarchar 50 Khác rỗng Tên đăng nhập người sử dụng Bảng 3.4: Bảng Group (nhóm tin tức) Bảng User Blog: chứa thông tin blog tin tức người dùng tblUserBlog STT Tên trường UserBlogID Kiểu liệu Độ dài int Diễn giải Ghi Khố Mã trang blog tin tức người dùng UserName nvarchar 50 Khác rỗng Tên đăng nhập người sử dụng ChannelID int Khác rỗng Mã kênh tin GroupID int Khác rỗng Mã nhóm NumberToShow int Số lượng tin người dùng chọn kênh tin Bảng 3.5: Bảng User Blog (kho tin tức người dùng) Số hóa Trung tâm Học liệu – Đại học Thái Ngun 60 http://www.lrc-tnu.edu.vn 3.3.2 Mơ hình quan hệ Hình 3.17: Mơ hình quan hệ liệu bảng 3.4 Qui trình tự động lấy đường dẫn tới tập tin RSS Khi người dùng nhập đường dẫn tới website (chẳng hạn: http://vietnamnet.vn ), nhiệm vụ hệ thống lấy tất file RSS mà website cung cấp Bước 1: Ta phải tải nội dung trang HTML website Bước 2: Ta sử dụng đến biểu thức qui (Regular Expression) để lọc thẻ chứa đường dẫn tới file RSS Bước 3: Lọc đường dẫn tới file RSS, ta dùng biểu thức qui để match() href chứa đường dẫn tới file RSS Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 61 http://www.lrc-tnu.edu.vn Bước 4: Sau lấy đường dẫn tới file RSS, lưu vào Cơ sở liệu Tiếp theo, đọc file RSS 3.5 Qui trình đọc tập tin RSS Người dùng nhập trực tiếp đường dẫn tới file RSS Nhiệm vụ hệ thống trích rút liệu từ file RSS Để trích rút liệu ta làm sau: Bước 1: Trước tiên thiết kế lớp RSSItem để chứa liệu mà ta trích rút từ file RSS Bước 2: Đọc file RSS 3.6 Một số hình giao diện đạt Hình 3.18: Giao diện trang đăng nhập Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 62 http://www.lrc-tnu.edu.vn Hình 3.19: Giao diện trang quản lý người dùng Hình 3.20: Giao diện blog Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 63 http://www.lrc-tnu.edu.vn Hình 3.21: Giao diện thư mục RSS cung cấp sẵn Hình 3.22: Giao diện trang lấy link RSS tự động Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 64 http://www.lrc-tnu.edu.vn Hình 3.23: Giao diện trang tin tức lấy Hình 3.24: Giao diện trang quản lý nhóm tin Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 65 http://www.lrc-tnu.edu.vn PHẦN KẾT LUẬN Tầm quan trọng vấn đề lấy tin tự động Internet Với phát triển nhanh chóng Internet ngày nay, ngày, tuần, tháng, quý, năm người phải xử lý hàng trăm, triệu, tỷ thơng tin, liệu khác nhau, điều có nghĩa gặp phải rắc rối không mong muốn thời đại công nghệ số Vì vậy, tốn tìm kiếm tài liệu Web phân cụm tài liệu toán phức tạp ứng dụng thực tế, đặc biệt ứng dụng Web Trên sở liệu thu thập từ internet cần phải tiến hành phân loại, nhóm phân cụm thành cụm khác theo chủ đề khác từ phục vụ cho việc phân tích liệu dự báo kinh tế [1] Hiện nay, có nhiều phương pháp tìm kiếm khác nhau, nhìn chung cách tiếp cận dựa vào trọng số trang Web (Chỉ số quan trọng trang tập kết quả), như: Page Bank, HITS Tức trang chủ yếu dựa vào liên kết để xác định trọng số [16] Mặt khác, dựa vào nội dung tài liệu để xác định trọng số, tài liệu gần nội dung gán cho chúng trọng số chúng thuộc nhóm Các vấn đề tìm hiểu luận văn Luận văn nêu vấn đề cải tiến thuật toán K-means phân cụm tài liệu web, thay chọn số điểm làm trọng tâm khơng chọn số điểm làm trọng tâm cho số cụm mà tăng số cụm từ lên k cụm cách đưa trung tâm cụm vào cụm có mức độ biến dạng Max tính lại trọng tâm cụm cài đặt thử nghiệm sở liệu, cho kết bước đầu khả quan Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 66 http://www.lrc-tnu.edu.vn Hướng nghiên cứu Tiếp tục nghiên cứu kỹ thuật phân cụm liệu, nhấn mạnh đến kỹ thuật phân cụm K-Means mở rộng, thời gian tuyến tính đáp ứng yêu cầu toán phân cụm tài liệu Web Đề xuất giải pháp xây dựng quy trình cơng nghệ phát triển hệ thống phần mềm thu thập, đánh giá phân cụm thông tin tự động Internet phục vụ cho việc nghiên cứu, học tập giảng dạy ngành Hệ thống thông tin Kinh tế, phục vụ cho việc phân tích, tổng hợp, xử lý liệu dự báo phát triển kinh tế xã hội khu vực trung du miền núi phía Bắc Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 67 http://www.lrc-tnu.edu.vn DANH MỤC CÁC CƠNG TRÌNH CĨ LIÊN QUAN ĐẾN LUẬN VĂN Phạm Việt Bình, Nguyễn Văn Huân, Vũ Xuân Nam, Trương Mạnh Hà, Nguyễn Thanh Dương (2009), "Tìm kiếm phân cụm tài liệu Web tự động", Tập 56, số 8, 2009 - Tạp chí khoa học cơng nghệ, Đại học Thái Nguyên, tr 60 - 64 Phạm Việt Bình, Nguyễn Văn Huân, Vũ Xuân Nam, Trương Mạnh Hà (2009), "Cải tiến thuật toán K-Means ứng dụng phân cụm liệu tự động", Báo cáo Hội thảo Khoa học ĐH Lạc Hồng, Đồng Nai Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 68 http://www.lrc-tnu.edu.vn TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Phạm Việt Bình, Nguyễn Văn Huân, Vũ Xuân Nam, Trương Mạnh Hà, Nguyễn Thanh Dương (2009), "Tìm kiếm phân cụm tài liệu Web tự động", Tập 56, số 8, 2009 - Tạp chí khoa học cơng nghệ, Đại học Thái Nguyên, tr 60 - 64 [2] Phạm Việt Bình, Nguyễn Văn Huân, Vũ Xuân Nam, Trương Mạnh Hà (2009), "Cải tiến thuật toán K-Means ứng dụng phân cụm liệu tự động", Báo cáo Hội thảo Khoa học ĐH Lạc Hồng, Đồng Nai [3] Lê Thu Trang (2008), "Khai phá liệu phương pháp phân cụm", Luận văn thạc sĩ Công nghệ thông tin, Khoa Công nghệ thông tin - Đại học Thái Nguyên [4] Hoàng Văn Dũng, "Khai phá liệu web kỹ thuật phân cụm", http://www.ebook.edu.vn/?page=1.3&view=9492 [5] Đỗ Văn Đại (2009), "Phân cụm liệu khơng gian có chướng ngại vật", Đồ án tốt nghiệp Đại học, Khoa Công nghệ thông tin - Đại học Giao thông vận tải Tài liệu tiếng Anh [6] Athena Vakali (2004), "Web data clustering Current research status & trends", Aristotle University, Greece [7] Raghu Krishnapuram, Anupam Joshi, and Liyu Yi (2001), A Fuzzy Relative of the K - Medoids Algorithm with Application toWeb Document and Snippet Clustering Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 69 http://www.lrc-tnu.edu.vn [8] Filippo Geraci, Marco Pellegrini, Paolo Pisati, and Fabrizio Sebastiani (2006), A scalable algorithm for high-quality clustering of Web Snippets, Italy, ACM [9] Hiroyuki Kawano (2004), Applications of Web mining- from Web search engine to P2P filtering, IEEE [10] Raymond and Hendrik (2000), Web Mining Research: A Survey, ACM [11] Hua-Jun Zeng, Qi-Cai He, Zheng Chen, Wei-Ying Ma, Jinwen Ma (2004), Learning to Cluster Web Search Results, ACM [12] Lizhen Liu, Junjie Chen, Hantao Song (2002), The research of Web Mining, IEEE [13] Maria Rigou, Spiros Sirmakessis, and Giannis Tzimas (2006), A Method for Personalized Clustering in Data Intensive Web Applications [14] Oren Zamir and Oren Etzioni (1998), Web document Clustering: A Feasibility Demonstration, University of Washington, USA, ACM [15] Periklis Andritsos (2002), Data Clusting Techniques, University Toronto [16] Yitong Wang, Masaru Kitsuregawa (2002), Evaluating ContentsLink Coupled Web Page Clustering for Web Search Results, ACM [17] Zifeng Cui, Xu , Weifeng Zhang, Junling Xu (2005), Web Documents Clustering with Interest Links, IEEE [18] Wenyi Ni (2004), A Survey of Web Document Clustering, Southern Methodist University [19] Bing Liu (2007), Web mining, Springer Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 70 http://www.lrc-tnu.edu.vn ... chọn đề tài: "Nghiên cứu số kỹ thuật lấy tin tự động internet" Mục tiêu đề tài: Nghiên cứu xây dựng giải pháp phát triển hệ thống phần mềm thu thập, đánh giá phân cụm thông tin tự động Internet phục... liệu liên quan, tư tưởng thuật toán nghiên cứu, nghiên cứu đề xuất phương pháp cải tiến - Chương 3: Ứng dụng lấy tin tự động Ứng dụng xây dựng toán Thu thập liệu Kinh tế Internet Để hoàn thành... thiệu số khái niệm khai phá liệu, khai phá liệu web, hướng tiếp cận, ứng dụng khai phá liệu, nêu toàn phân cụm tài liệu Web - Chương 2: Một số thuật toán phân cụm tài liệu Nghiên cứu số kỹ thuật

Định dạng
Số trang	72
Dung lượng	1,26 MB