1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu một số kỹ thuật lấy tin tự động trên internet

36 352 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 36
Dung lượng 1,21 MB

Nội dung

LỜI CAM ĐOAN ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN  Tôi xin cam đoan toàn nội dung luận văn tự sưu tầm, tra cứu xếp cho phù hợp với nội dung yêu cầu đề tài Nội dung luận văn chưa công bố hay xuất hình thức không chép từ công trình nghiên cứu TRƯƠNG MẠNH HÀ Tất phần mã nguồn chương trình tự thiết kế xây dựng, có sử dụng số thư viện chuẩn thuật toán tác giả xuất công khai miễn phí mạng Internet Nếu sai xin xin hoàn toàn chịu trách nhiệm NGHIÊN CỨU MỘT SỐ KỸ THUẬT LẤY TIN TỰ ĐỘNG TRÊN INTERNET Thái Nguyên, ngày 11 tháng 11 năm 2009 Chuyên ngành: Khoa học máy tính Người cam đoan Mã số: 60.48.01 Trương Mạnh Hà LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: TS Phạm Việt Bình Thái Nguyên - Năm 2009 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn đó, việc phân cụm phải ứng dụng tập tài liệu nhỏ trả MỞ ĐẦU từ truy vấn thay trả danh sách dài thông tin gây Sự phát triển nhanh chóng mạng Internet sinh khối lượng khổng lồ liệu dạng siêu văn (dữ liệu Web) Các tài liệu siêu văn nhập nhằng cho người sử dụng cần có phương pháp tổ chức lại kết tìm kiếm cách hợp lý chứa đựng văn thường nhúng liên kết đến tài liệu khác Do vấn đề cấp thiết đề cập nên em chọn đề tài: phân bố Web Ngày nay, Web bao gồm hàng tỉ tài liệu hàng triệu tác "Nghiên cứu số kỹ thuật lấy tin tự động internet" giả tạo phân tán qua hàng triệu máy tính kết nối qua Mục tiêu đề tài: Nghiên cứu xây dựng giải pháp phát triển hệ thống đường dây điện thoại, cáp quang, sóng radio Web ngày sử phần mềm thu thập, đánh giá phân cụm thông tin tự động Internet dụng phổ biến nhiều lĩnh vực báo chí, phát thanh, truyền hình, hệ phục vụ cho việc nghiên cứu, học tập, giảng dạy thống bưu điện, trường học, tổ chức thương mại, phủ Chính lĩnh vực Web mining hay tìm kiếm tự động thông tin phù hợp có giá trị Web chủ đề quan trọng Data Mining vấn đề quan trọng đơn vị, tổ chức có nhu cầu thu thập tìm kiếm thông tin Internet [2] Ngoài phần mở đầu, phần kết luận, mục lục, tài liệu tham khảo, phụ lục, luận văn gồm chương: - Chương 1: Khái quát khai phá liệu phân cụm tài liệu Web Giới thiệu số khái niệm khai phá liệu, khai phá liệu web, hướng tiếp cận, ứng dụng khai phá liệu, nêu toàn phân Các hệ thống tìm kiếm thông tin hay nói ngắn gọn máy tìm kiếm Web thông thường trả lại danh sách tài liệu phân hạng mà người dùng phải tốn công chọn lọc danh sách dài để có tài liệu phù hợp Ngoài thông tin thường phong phú, đa dạng liên quan đến nhiều đối tượng khác Điều tạo nên nhập nhằng gây khó khăn cho người dụng việc lấy thông tin cần thiết Có nhiều hướng tiếp cận khác để giải vấn đề này, hướng cụm tài liệu Web - Chương 2: Một số thuật toán phân cụm tài liệu Nghiên cứu số kỹ thuật phân cụm tài liệu liên quan, tư tưởng thuật toán nghiên cứu, nghiên cứu đề xuất phương pháp cải tiến - Chương 3: Ứng dụng lấy tin tự động Ứng dụng xây dựng toán Thu thập liệu Kinh tế Internet thường ý giảm nhập nhằng phương pháp lọc hay thêm Để hoàn thành luận văn Cao học, em xin gửi lời cảm ơn tới tùy chọn để cắt bớt thông tin hướng biểu diễn thông tin trả thầy Viện Công nghệ thông tin, thầy Khoa Công nghệ máy tìm kiếm thành cụm người dùng dễ dàng tìm thông tin tận tình giảng dạy, cung cấp nguồn kiến thức quý giá suốt thông tin mà họ cần Đã có nhiều thuật toán phân cụm tài liệu dựa phân trình học tập cụm ngoại tuyến toàn tập tài liệu Tuy nhiên việc tập hợp tài liệu Đặc biệt em xin chân thành cảm ơn TS Phạm Việt Bình, tận tình máy tìm kiếm lớn thay đổi để phân cụm ngoại tuyến Do hướng dẫn, góp ý, tạo điều kiện cho em hoàn thành luận văn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn http://www.lrc-tnu.edu.vn Xin chân thành cảm ơn thầy cô, anh chị em công tác phòng VRLAB - Viện công nghệ thông tin - Viện khoa học Công nghệ Việt Nam, thầy cô công tác Viện Công nghệ thông tin - Viện khoa học Công nghệ Việt Nam Chương 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ PHÂN CỤM TÀI LIỆU WEB 1.1 Khai phá liệu: Cảm ơn đồng nghiệp Đỗ Văn Đại cung cấp tài liệu, kinh nghiệm quý báu làm Đồ án tốt nghiệp đại học đồng nghiệp Đỗ Văn Đại giúp cho em trình nghiên cứu giảm bớt khó khăn việc tiếp cận vấn đề nghiên cứu tài liệu Xin cảm ơn Ban lãnh đạo Khoa Công nghệ thông tin - Đại học Thái Nguyên, lãnh đạo phòng Công nghệ thông tin - Thư viện, toàn thể đồng nghiệp Khoa Công nghệ thông tin - Đại học Thái Nguyên giúp đỡ em thời gian, vật chất tinh thần giúp em hoàn thành tốt nhiệm vụ học Trong thời đại ngày nay, với phát triển vượt bậc công nghệ thông tin, hệ thống thông tin lưu trữ khối lượng lớn liệu hoạt động hàng ngày Từ khối liệu này, kỹ thuật Khai phá liệu Máy học dùng để trích xuất thông tin hữu ích mà chưa biết Các tri thức vừa học vận dụng để cải thiện hiệu hoạt động hệ thống thông tin ban đầu Giáo sư Tom Mitchell đưa định nghĩa Khai phá liệu sau: “Khai phá liệu việc sử dụng liệu lịch sử để khám phá qui tập, công tác tắc cải thiện định tương lai.” Với cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad phát biểu: “Khai phá liệu, thường xem việc khám phá tri thức sở liệu, trình trích xuất thông tin ẩn, trước chưa biết có khả hữu ích, dạng qui luật, ràng buộc, qui tắc sở liệu” Nói tóm lại, Khai phá liệu trình học tri thức từ liệu thu thập [4] Mô hình khai phá liệu bao gồm năm giai đoạn chính: - Tìm hiểu nghiệp vụ liệu - Chuẩn bị liệu - Mô hình hoá liệu - Hậu xử lý đánh giá mô hình - Triển khai tri thức Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Quá trình lặp lại nhiều lần hay nhiều giai đoạn dựa phản hồi từ kết giai đoạn sau Tham gia trình (c) Giảm nhiễu: nhiễu đối tượng tách rời (outlier) khỏi phân bố chung bị loại khỏi liệu Khai phá liệu nhà tư vấn phát triển chuyên nghiệp lĩnh vực (d) Chuẩn hóa: miền giá trị liệu chuẩn hóa Khai phá liệu (e) Rời rạc hóa: liệu số biến đổi giá trị rời rạc Trong giai đoạn đầu tiên, tìm hiểu nghiệp vụ liệu, nhà tư vấn nghiên cứu kiến thức lĩnh vực áp dụng, bao gồm tri thức cấu trúc hệ thống tri thức, nguồn liệu hữu, ý nghĩa, vai trò tầm quan trọng thực thể liệu Việc nghiên cứu thực qua việc tiếp xúc nhà từ vấn người dùng Khác với phương pháp giải vấn đề truyền thống toán xác định xác bước đầu tiên, nhà tư vấn tìm hiểu yêu cầu sơ khởi người dùng đề nghị toán tiềm giải với nguồn liệu hữu Tập toán tiềm tinh chỉnh làm hẹp lại giai đoạn sau Các nguồn đặc tả liệu có liên quan đến tập toán tiềm xác định [4] Giai đoạn chuẩn bị liệu sử dụng kỹ thuật tiền xử lý để biến đổi cải thiện chất lượng liệu để thích hợp với yêu cầu giải thuật học Phần lớn giải thuật khai phá liệu làm việc tập liệu đơn phẳng, liệu phải trích xuất biến đối từ dạng sơ liệu phân bố, quan hệ hay hướng đối tượng sang dạng sở liệu quan hệ đơn giản với bảng liệu Các giải thuật tiền xử lý tiêu biểu bao gồm: (a) Xử lý liệu bị thiếu/mất: liệu bị thiếu thay giá trị thích hợp (b) Khử trùng lắp: đối tượng liệu trùng lắp bị loại bỏ Kỹ thuật không sử dụng cho tác vụ có quan tâm đến phân bố liệu (f) Rút trích xây dựng đặc trưng từ thuộc tính có (g) Giảm chiều: thuộc tính chứa thông tin loại bỏ bớt Các toán giải giai đoạn Mô hình hóa liệu Các giải thuật học sử dụng liệu tiền xử lý giai đoạn hai để tìm kiếm qui tắc ẩn chưa biết Công việc quan trọng giai đoạn lựa chọn kỹ thuật phù hợp để giải vấn đề đặt Các toán phân loại vào nhóm toán Khai phá liệu dựa đặc tả chúng [4] Các mô hình kết giai đoạn ba hậu xử lý đánh giá giai đoạn (d) Dựa đánh giá người dùng sau kiểm tra tập thử, mô hình tinh chỉnh kết hợp lại cần Chỉ mô hình đạt mức yêu cầu người dùng đưa triển khai thực tế Trong giai đoạn này, kết biến đổi từ dạng học thuật sang dạng phù hợp với nghiệp vụ dễ hiểu cho người dùng Trong giai đoạn cuối, Triển khai tri thức, mô hình đưa vào hệ thống thông tin thực tế dạng module hỗ trợ việc đưa định Mối quan hệ chặt chẽ giai đoạn trình Khai phá liệu quan trọng cho việc nghiên cứu Khai phá liệu [3] Một giải thuật Khai phá liệu phát triển độc lập, không quan tâm đến bối cảnh áp dụng mà thường xây dựng để giải mục tiêu cụ thể Do đó, hiểu biết bối cảnh vận dụng cần thiết Thêm vào Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn đó, kỹ thuật sử dụng giai đoạn trước ảnh hưởng đến cách mà người đọc không cần đọc cách liên tục Ví dụ đọc hiệu giải thuật sử dụng giai đoạn sách người đọc đọc trang từ đầu đến cuối mà 1.1.1 Các dạng liệu nhảy cóc đến đoạn sau để tham khảo vấn đề họ quan tâm Như văn Hypertext bao gồm dạng chữ viết không liên tục, 1.1.1.1 Full text chúng phân nhánh cho phép người đọc chọn cách đọc theo ý Dữ liệu dạng Full text dạng liệu phi cấu trúc với thông tin muốn Hiểu theo nghĩa thông thường Hypertext tập gồm tài liệu dạng text Mỗi tài liệu chứa thông tin vấn đề trang chữ viết kết nối với liên kết cho phép người đọc thể qua nội dung tất từ cấu thành tài liệu Ý nghĩa đọc theo cách khác Như ta làm quen nhiều với trang từ tài liệu không cố định mà tùy thuộc vào ngữ cảnh khác định dạng HTML, trang có liên kết trỏ tới phần khác mang ý nghĩa khác Các từ tài liệu liên kết với theo trang trỏ tới trang khác người đọc đọc văn dựa ngôn ngữ vào liên kết Trong liệu văn liệu phổ Bên cạnh đó, Hypertext dạng văn Text đặc biệt nên biến nhất, có mặt khắp nơi thường xuyên bắt gặp bao gồm chữ viết liên tục (là dạng phổ biến chữ toán xử lý văn đặt lâu viết) Do không bị hạn chế tính liên tục Hypertext, vấn đề khai phá liệu Text, có toán tạo dạng trình bày mới, tài liệu phản ánh tốt nội dung đáng ý tìm kiếm văn bản, phân loại văn bản, phân cụm văn muốn diễn đạt Hơn người đọc chọn cho cách đọc phù dẫn đường văn hợp chẳng hạn sâu vào vấn đề mà họ quan tâm Sáng kiến tạo Cơ sở liệu Full text dạng sở liệu phi cấu trúc mà liệu tập văn với trỏ tới văn khác để liên kết bao gồm tài liệu thuộc tính tài liệu Cơ sở liệu Full_Text thường tập văn có mối quan hệ với cách thực hay hữu ích tổ chức tổ hợp hai thành phần: Một sở liệu có cấu để tổ chức thông tin Với người viết, cách cho phép họ thoải mái trúc thông thường (chứa đặc điểm tài liệu) tài liệu loại bỏ băn khoăn thứ tự trình bày mà tổ chức vấn đề thành 1.1.1.2 Hypertext phần nhỏ sử dụng kết nối để mối liên hệ phần nhỏ Theo từ điển Đại Học Oxford (Oxford English Dictionary Additions Series) Hypertext định nghĩa sau: Đó loại Text đọc theo dạng liên tục đơn, đọc theo thứ tự khác nhau, đặc biệt Text ảnh đồ họa (Graphic) dạng có mối liên kết với theo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn với Với người đọc, cách cho phép họ tắt mạng thông tin định phần thông tin có liên quan đến vấn đề mà họ quan tâm để tiếp tục tìm hiểu So sánh với cách đọc tuyến tính tức đọc Hypertext cung cấp cho giao diện để tiếp xúc với nội dung thông Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn tin hiệu nhiều Theo khía cạnh thuật toán học máy Bài toán thông dụng Khai phá liệu Phân lớp Hypertext cung cấp cho hội nhìn phạm vi tài liệu (Classification) Với tập liệu huấn luyện cho trước huấn luyện để đánh giá nó, nghĩa có tính đến tài liệu có liên kết với Tất người, giải thuật phân loại học phân loại (classifier) dùng nhiên tất tài liệu có liên kết đến có ích cho việc để phân liệu vào lớp (còn gọi loại) xác đánh giá, đặc biệt siêu liên kết đến nhiều loại tài liệu định trước Nhận dạng toán thuộc kiểu phân loại Với mô hình học tương tự toán Phân loại, lớp toán Dự đoán khác Có hai khái niệm Hypertext cần quan tâm: (Prediction) học dự đoán Khi có liệu đến, dự đoán Hypertext Document (Tài liệu siêu văn bản): Là tài liệu văn đơn dựa thông tin có để đưa giá trị số học cho hàm cần dự đoán hệ thống siêu văn Nếu tưởng tượng hệ thống siêu văn Bài toán tiêu biểu nhóm dự đoán giá sản phẩm để lập kế hoạch đồ thị tài liệu tương ứng nút kinh doanh Hypertext Link (Liên kết siêu văn bản): Là tham chiếu để nối Các giải thuật Tìm luật liên kết (Association Rule) tìm kiếm mối liên tài liệu Hypertext với tài liệu Hypertext khác Các siêu liên kết đóng kết phần tử liệu, ví dụ nhóm hàng thường mua vai trò quan trọng đường nối đô thị nói kèm với siêu thị Hypertext loại liệu phổ biến loại liệu có nhu Các kỹ thuật Phân cụm (Clustering) nhóm đối tượng liệu có tính cầu tìm kiếm lớn Nó liệu phổ biến mạng thông tin Internet chất giống vào nhóm Có nhiều cách tiếp cận với mục tiêu sở liệu Hypertext với văn dạng “ mửa cấu trúc” xuất thêm khác phân loại Các kỹ thuật toán thường vận “thẻ ”: Thẻ cấu trúc (tiêu đề, mở đầu, nội dung), thẻ nhấn trình bày chữ (đậm, dụng vấn đề phân hoạch liệu tiếp thị hay khảo sát sơ liệu nghiêng, ) Nhờ thẻ mà có thêm tiêu chuẩn (so với tài 1.1.3 Các môi trường khai phá liệu liệu Full text) để tìm kiếm phân loại chúng Dựa vào thẻ quy định trước phân thành độ ưu tiên khác cho từ khóa chúng xuất vị trí khác Ví dụ tìm kiếm tài liệu có nội dung liên quan đến “people ” đưa từ khóa tìm kiếm “people ” tài liệu có từ khóa “people ” đứng tiêu đề gần với Do đặc tính nêu phần 2, công cụ Khai phá liệu thường xây dựng theo dạng môi trường phát triển, dễ thử nghiệm thay đổi tác vụ Khai phá liệu Hình 1.1 giới thiệu giao diện trực quan trình Khai phá liệu môi trường Clementine [4] yêu cầu tìm kiếm 1.1.2 Các toán thông dụng Khai phá liệu Trong Khai phá liệu, toán phân thành bốn loại Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 10 http://www.lrc-tnu.edu.vn sẵn sàng cho việc sử dụng, người vận dụng Khai phá liệu cần phải tìm hiểu kiến thức cần thiết, khảo sát tính chất liệu, vận dụng kỹ thuật thực sẵn liệu, đánh giá kết tạm thời vận dụng kết cuối Với phương thức đại vậy, việc áp dụng Khai phá liệu trở nên dễ dàng tiện lợi Weka môi trường thử nghiệm Khai phá liệu nhà khoa học thuộc trường Đại học Waitako, NZ, khởi xướng đóng góp nhiều nhà nghiên cứu giới Weka phần mềm mã nguồn mở, cung cấp công cụ trực quan sinh động cho sinh viên người ngành Công nghệ thông tin tìm hiểu Khai phá liệu Weka cho phép giải thuật học phát triển tích hợp vào môi trường 1.1.4 Các ứng dụng khai phá liệu Hình 1.1: Giao diện trực quan môi trường khai phá liệu Clementine Trong môi trường này, trình Khai phá liệu mô tả dòng tác vụ nối tiếp, bắt đầu việc lấy liệu thực từ nguồn liệu lịch sử, thao tác biến đổi liệu sang dạng thích hợp, học sinh mô hình Mô hình sau thử nghiệm liệu thực để đưa đánh giá Nếu mô hình đánh giá chưa thỏa mãn yêu cầu đề ra, tác vụ trình tinh chỉnh thực lại Qui trình lặp lại mô hình sinh đánh giá có hiệu tốt Mô hình sinh cuối triển khai sử dụng thực tế Các môi trường phù hợp cho trình Khai phá liệu tính chất thử nghiệm cần thay đổi nhiều Khai phá liệu vận dụng nhiều lĩnh vực khác nhằm khai thác nguồn liệu phong phú lưu trữ hệ thống thông tin Tùy theo chất lĩnh vực, việc vận dụng Khai phá liệu có cách tiếp cận khác Khai phá liệu vận dụng hiệu để giải toán phức tạp ngành đòi hỏi kỹ thuật cao tìm kiếm mỏ dầu từ ảnh viễn thám, xác định vùng gãy ảnh địa chất để dự đoán thiên tai, cảnh báo hỏng hóc hệ thống sản xuất,… Các toán giải từ lâu kỹ thuật nhận dạng hay xác suất giải với yêu cầu cao kỹ thuật Khai phá liệu Phân nhóm dự đoán công cụ cần thiết cho việc qui hoạch phát triển hệ thống quản lý sản xuất thực tế Các kỹ thuật Khai phá liệu áp dụng thành công việc dự đoán Việc sử dụng môi trường thử nghiệm thúc đẩy nhanh việc áp tải sử dụng điện cho công ty cung cấp điện, lưu lượng viễn thông dụng Khai phá liệu Thay phải bỏ nhiều công sức thời gian vào việc cho công ty điện thoại, mức độ tiêu thụ sản phẩm cho nhà sản xuất, xây dựng chương trình hoàn chỉnh thực giải thuật, liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 11 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 12 http://www.lrc-tnu.edu.vn giá trị sản phẩm thị trường cho công ty tài hay phân nhóm không gian, sinh học Do kích thước sở liệu tăng lên nhanh khách hàng tiềm năng,… nên phân cụm vấn đề thu hút nhiều quan tâm Ngoài ra, Khai phá liệu áp dụng cho vấn đề xã hội nhà khoa học giới phát tội phạm hay tăng cường an ninh xã Việc vận dụng thành công Trong lĩnh vực thống kê, phân cụm nghiên cứu phát triển mang lại hiệu thiết thực cho hoạt động diễn hàng ngày trong nhiều năm, vấn đề tập trung chủ yếu vào phân tích lớp dựa vào đời sống khoảng cách Các công cụ phân tích lớp dựa số phương pháp 1.2 Phân cụm tài liệu phân cụm tài liệu Web k-means, k-medoids ứng dụng nhiều hệ thống phần mềm phân tích thống kê như: S-Plus, SPSS, SAS Phân cụm (Clustering) trình nhóm tập đối tượng vật lý trừu tượng thành nhóm hay lớp đối tượng tương tự Một cụm (cluster) tập đối tượng giống tương tự nhau, chúng khác tương tự so với đối tượng thuộc lớp khác Không giống trình phân loại, ta thường biết trước tính chất hay đặc điểm đối tượng lớp dựa vào để ấn định đối tượng vào lớp nó, trình chia lớp ta trước tính chất lớp thường dựa vào mối quan hệ đối tượng để tìm giống đối tượng dựa vào độ đo đặc trưng cho lớp Việc phân cụm không thực độc lập mà thường sử dụng kết hợp với phương pháp khác Một cách phân cụm đưa phải có phương pháp áp dụng lớp để đưa ý nghĩa lớp Ở mức nhất, người ta đưa định nghĩa Phân cụm liệu sau: "Phân cụm liệu kỹ thuật DATA MINING, nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn, quan tâm tập liệu lớn, từ cung cấp thông tin, tri thức hữu ích cho định" Trong học máy, phân cụm liệu xem vấn đề học giám sát, phải giải vấn đề tìm cấu trúc tập hợp liệu chưa biết trước thông tin lớp hay thông tin tập ví dụ huấn luyện Trong nhiều trường hợp, phân lớp (Classification) xem vấn đề học có giám sát phân cụm liệu bước phân lớp liệu, Phân cụm liệu khởi tạo lớp cho phân lớp cách xác định nhãn cho nhóm liệu Trong lĩnh vực khai thác liệu, vấn đề nghiên cứu phân cụm chủ yếu tập trung vào tìm kiếm phương pháp phân cụm hiệu tin cậy sở liệu lớn Trong lĩnh vực khai phá liệu Web, phân cụm khám phá nhóm tài liệu quan trọng, có nhiều ý nghĩa môi trường Web Các lớp tài liệu trợ giúp cho việc khám phá tri thức từ liệu 1.2.1 Khai phá liệu Web 1.2.1.1 Khai phá nội dung Web Khai phá nội dung web tập trung vào việc khám phá cách tự động Hiện có nhiều vấn đề nghiên cứu phân cụm lĩnh nguồn thông tin có giá trị trực tuyến Khai phá nội dung web tiếp vực khác như: Khai phá liệu, thống kê, học máy, công nghệ liệu cận theo cách khác nhau: Tìm kiếm thông tin khai phá liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 13 http://www.lrc-tnu.edu.vn 14 http://www.lrc-tnu.edu.vn sở liệu lớn Khai phá liệu đa phương tiện phần khai phá nội dung Web, hứa hẹn việc khai thác thông tin tri thức mức cao + Giảm bớt số chiều làm tăng hiệu việc phát tri thức việc chuyển đổi, quy nạp, cưỡng liệu từ nguồn đa phương tiện trực tuyến rộng lớn + Làm thuộc tính không liên quan để giảm bớt số chiều liệu 1.2.1.2 Khai phá văn Web - Biểu diễn văn bản: Khai phá văn Web khai phá tập tài liệu Khai phá văn Web việc sử dụng kỹ thuật khai phá liệu tập văn để tìm tri thức có ý nghĩa tiềm ẩm [12] Dữ liệu có liệu có cấu trúc không cấu trúc Kết khai phá không trạng thái chung tài liệu văn mà phân loại, phân HTML Do ta phải biến đổi biểu diễn liệu thích hợp cho trình xử lý Người ta thường dùng mô hình TF-IDF để vector hoá liệu Nhưng có vấn đề quan trọng việc biểu diễn dẫn đến số chiều vector lớn - Trích rút đặc trưng: Rút đặc trưng phương pháp, giải số chiều vector đặc trưng lớn mang lại khai phá văn cụm tập văn phục vụ cho mục đích Việc rút đặc trưng dựa hàm trọng số: + Mỗi từ đặc trưng nhận giá trị trọng số tin cậy việc tính toán hàm trọng số tin cậy Tần số xuất cao từ đặc trưng khả chắn phản ánh đến chủ đề văn bản, ta gán cho giá trị tin cậy lớn Hơn nữa, tiêu đề, từ khoá cụm từ chắn có giá trị tin cậy lớn + Việc rút đặc trưng dựa việc phân tích thành phần Hình 1.2: Quá trình khai phá văn Web phân tích thông kê Ý tưởng phương pháp sử dụng thay - Lựa chọn liệu: Về bản, văn văn cục định dạng tích hợp thành tài liệu theo mong muốn để khai phá phân phối nhiều dịch vụ Web việc sử dụng kỹ thuật truy xuất thông tin - Tiền xử lý liệu: Để có kết khai phá tốt ta cần có liệu rõ ràng, xác xoá bỏ liệu hỗn độn dư thừa Sau bước tiền xử lý, tập liệu đạt thường có đặc điểm sau: từ đặc trưng bao hàm số từ đặc trưng mô tả để thực giảm bớt số chiều - Sau tập hợp, lựa chọn trích tập văn hình thành nên đặc trưng bản, sở để Khai phá liệu Từ ta thực trích, phân loại, phân cụm, phân tích dự đoán - Việc trích rút văn để đưa ý nghĩa mô tả tóm tắt tài + Dữ liệu thống hỗn hợp cưỡng liệu văn trình tổng hợp Sau đó, người dùng hiểu ý nghĩa + Làm liệu không liên quan, nhiễu liệu rỗng Dữ liệu văn không cần thiết phải duyệt toàn văn Đây phương pháp đặc biệt sử dụng searching engine, thường cần để không bị mát không bị lặp Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 15 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 16 http://www.lrc-tnu.edu.vn đưa văn trích dẫn [10] Nhiều searching engines đưa câu 1.2.2 Bài toán phân cụm tài liệu Web dự đoán trình tìm kiếm trả kết quả, cách tốt để thu Nắm bắt đặc tính người dung Web việc quan trọng đối ý nghĩa văn tập văn chủ yếu việc sử dụng với người thiết kế Website Thông qua việc khai phá lịch sử mẫu truy xuất nhiều thuật toán khác người dùng Web, không thông tin Web sử dụng - Phân lớp văn bản: Nhiều tài liệu phân lớp tự động cách mà nhiều đặc tính khác hành vi người dùng xác nhanh chóng hiệu cao Người ta thường sử dụng phương pháp phân định Sự điều hướng đường dẫn người dùng Web mang lại giá trị thông tin lớp Navie Bayesian "K - láng giềng gần nhất" để khai phá thông tin văn mức độ quan tâm người dùng đến Website Trong phân lớp văn bản, phân loại tài liệu Thứ hai, xác định đặc trưng thông qua số lượng đặc trưng tập tài liệu huấn luyện Cuối cùng, tính toán kiểm tra phân lớp tài liệu độ tương tự tài liệu phân lớp thuật toán Khi tài liệu có độ tương tự cao với Khai phá Web theo sử dụng Web khai phá truy cập Web để khám phá mẫu người dùng truy cập vào Website Kiến trúc tổng quát trình khai phá theo sử dụng Web sau: nằm phân lớp Độ tương tự đo hàm đánh giá xác định trước Nếu tài liệu tương tự đưa Nếu không giống với lựa chọn phân lớp xác định trước xem không phù hợp - Phân cụm văn bản: Chủ đề phân loại không cần xác định trước ta phải phân loại tài liệu vào nhiều cụm Trong cụm độ tương tự thấp Phương pháp xếp liên kết phương pháp phân cấp thường sử dụng văn phân cụm Hình 1.3: Kiến trúc tổng quát khai phá theo sử dụng Web - Phân tích dự đoán xu hướng: Thông qua việc phân tích tài liệu Web, ta nhận quan hệ phân phối liệu đặc biệt giai đoạn dự đoán tương lai phát triển - Đánh giá chất lượng mẫu: Khai phá liệu Web xem trình machine learning Kết machine learning mẫu tri thức Phần quan trọng machine learning đánh giá kết mẫu Ta thường phân lớp tập tài liệu vào tập huấn luyện tập kiểm tra Cuối - Các kỹ thuật sử dụng khai phá sử dụng Web: + Luật kết hợp: Để tìm Web thường truy cập người dùng, lựa chọn khách hàng thương mại điện tử + Kỹ thuật phân cụm: Phân cụm người dùng dựa mẫu duyệt để tìm liên quan người dùng Web hành vi họ cùng, chất lượng trung bình dung để đánh giá chất lượng mô hình Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 17 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 18 http://www.lrc-tnu.edu.vn Ngược lại, quay trở lại bước 2.2 (bước 2) + Thuật toán cải tiến K-means có độ phức tạp O( k nt), so với Bước 3: (Tăng số cụm) thuật toán K-means có độ phức tạp O(tkn) thì: O( k nt)>O(tkn), không Nếu K≤ giá trị ấn định số cụm K:=K+1, quay trở lại bước 2.1 (bước 2) K-mendoids, k

Ngày đăng: 10/08/2016, 18:24