Nghiên cứu khai phá dữ liệu web và ứng dụng tìm kiếm trích chọn thông tin chủ đề

LỜI CẢM ƠN Để hoàn thành tốt báo cáo này, em xin gửi lời cảm ơn chân thành đến thầy giáo ThS.Trần Hải Thanh Thầy hướng dẫn dìu dắt tạo điều kiện giúp đỡ em thời gian thực đề tài báo cáo đồ án Thầy không truyền lại cho chúng em kiến thức chuyên nghành mà rèn luyện cho chúng em nghị lực, khát khao vươn lên, phát huy khả tư sáng tạo lĩnh vực Bên cạnh đó, em có hội tiếp xúc làm việc môi trường chuyên nghiệp thực tế Sau thời gian tìm hiểu đề tài, em hoàn thành tiến độ dự kiến Để đạt kết này, em nỗ lực thực đồng thời nhận nhiều giúp đỡ, quan tâm, ủng hộ thầy cô bạn bè gia đình Em xin chân thành cảm ơn thầy cô ban lãnh đạo trường Đại học Công nghệ thông tin truyền thông – Đại học Thái Nguyên nhiệt tình giảng dạy truyền đạt kiến thức quý báu bổ ích suốt trình em học tập trường Vì thời gian có hạn nên khơng thể tránh khỏi thiếu sót, em mong nhận đóng góp ý kiến từ thầy cô bạn Em xin chân thành cảm ơn! Thái Nguyên, ngày tháng 05 năm 2017 Sinh viên thực Đinh Hữu Vĩ LỜI CAM ĐOAN Em xin cam đoan đồ án trình nghiên cứu độc lập riêng em Các số liệu sử dụng phân tích đồ án có nguồn gốc rõ ràng, công bố theo quy định Các kết nghiên cứu đồ án em tự tìm hiểu, phân tích cách trung thực, khách quan phù hợp với thực tế Các kết chưa công bố nghiên cứu khác Thái Nguyên, ngày tháng 05 năm 2017 Sinh viên thực Đinh Hữu Vĩ MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC HÌNH DANH MỤC CÁC TỪ VIẾT TẮT LỜI MỞ ĐẦU CHƯƠNG 1: GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu 1.2 Các chức khai phá liệu 10 1.3 Khai phá liệu văn (TextMining) khai phá liệu web (WebMining) 11 1.3.1 Các toán khai phá liệu văn 11 1.3.2 Khai phá liệu Web 14 1.4 Cơ sở liệu HYPERTEXT FULLTEXT 18 1.4.1 Cơ sở liệu FullText 18 1.4.2 Cơ sở liệu HyperText 20 1.5 Ứng dụng khai phá liệu 21 CHƯƠNG 2: PHÂN CỤM DỮ LIỆU VÀ TRÍCH CHỌN THƠNG TIN 23 2.1 Giới thiệu RSS 23 2.1.1 RSS ? 23 2.1.2 Cấu trúc file RSS 24 2.2 Mơ hình tần suất 25 2.2.1 Phương pháp dựa tần số từ khóa (TF – Term Frequency) 25 2.2.2 Phương pháp dựa nghịch đảo tần số văn (IDF – Inverse Document Frequency) 25 2.2.3 Phương pháp TF × IDF 26 2.3 Phân cụm 27 2.3.1 Các kiểu liệu phép phân cụm 28 2.3.2 Độ không tương đồng tương đồng: Đo chất lượng phân cụm 29 2.3.3 Phân loại phương pháp phân cụm 30 2.4 Thuật toán K-means 33 2.5 Độ tương đồng 34 2.5.1 Khái niệm độ tương đồng 34 2.5.2 Độ tương đồng 35 2.5.3 Các phương pháp tính độ tương đồng 35 2.6 Khám phá tri thức khai phá liệu 38 2.7 Qúa trình khám phá tri thức 40 2.7.1 Gom liệu (Gathering) 41 2.7.2 Trích lọc liệu (Selection) 41 2.7.3 Làm sạch, tiền xử lý chuẩn bị trước liệu (Cleansing, Preprocessing and Preparation) 41 2.7.4 Chuyển đổi liệu (Transformation) 42 2.7.5 Khai phá liệu (Data Mining) 42 2.7.6 Đánh giá kết mẫu (Evaluation of Result) 42 2.8 Các loại liệu khai phá 42 2.9 Các phương pháp, kỹ thuật khai phá liệu 43 2.9.1 Phân lớp dự đoán (Classification & Prediction) 43 2.9.2 Phân nhóm- đoạn (Clustering / Segmentation) 46 2.10 Những thách thức khai phá liệu 46 CHƯƠNG 3: DEMO ỨNG DỤNG THUẬT TOÁN 48 3.1 Chuẩn bị liệu 48 3.1.1 Lấy RSS (file xml) 48 3.1.2 Xử lý liệu thô 49 3.1.3 Đưa từ nguyên thể 50 3.2 Các bước tìm kiếm độ tương đồng 53 3.2.1 Truy vấn chuỗi đầu vào với lớp 53 3.2.2 Độ xác, hồi quy độ đo F1 54 KẾT LUẬN 57 TÀI LIỆU THAM KHẢO 58 DANH MỤC HÌNH Hình 1: Các nội dung khai phá Web 18 Hình 2: Cấu trúc liệu RSS 24 Hình 3: Dữ liệu XML gốc lấy từ tramg web 48 Hình 4: Dữ liệu XML sau chia theo chủ đề 48 Hình 5: Xử lý liệu thô 49 Hình 6: Làm liệu 49 Hình 7: Các từ thơng dụng 50 Hình 8: Bảng quy ước để chuyển từ nguyển thẻ 50 Hình 9: Hình ảnh sau chuyển từ nguyên thể 51 Hình 10: Các từ dừng (stop word) 51 Hình 11: Cấu trúc Folder TFIDF 52 Hình 12: Nội dung file TFIDF 53 Hình 13: Tính độ quan trọng từ 54 Hình 14: Ảnh kết đầu vào 55 Hình 15: Ảnh kết đầu vào 56 DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Từ đầy đủ TP True Positive FP False Positive FN False Negative TN True Negative TF Term Frequency IDF Inverse Document Frequency RSS Real Simple Syndrication KPDL Khai Phá Dữ Liệu LỜI MỞ ĐẦU Lý chọn đề tài Hơn bốn thập niên kể từ Internet đời nay, mang lại nhiều tiện ích hữu dụng cho người sử dụng như: Hệ thống thư điện tử (Email), trò chơi (Game), trò chuyện trực tuyến (Chat), máy truy vấn liệu (Search engine), dịch vụ thương mại, y tế giáo dục Sự phát triển nhanh chóng mạng Internet sinh khối lượng khổng lồ liệu dạng siêu văn (dữ liệu Web) Các tài liệu siêu văn chứa đựng văn thường nhúng liên kết đến tài liệu khác phân bố Web Ngày nay, Web bao gồm hàng tỉ tài liệu hàng triệu tác giả tạo phân tán qua hàng triệu máy tính kết nối qua đường hữu tuyến (dây điện thoại, cáp quang) đường vơ tuyến (sóng radio, xạ hồng ngoại hay sóng truyền qua vệ tinh) Web ngày sử dụng phổ biến nhiều lĩnh vực báo chí, phát thanh, truyền hình, hệ thống bưu điện, trường học, tổ chức thương mại, phủ Chính lĩnh vực Web mining hay tìm kiếm thơng tin phù hợp có giá trị Web chủ đề quan trọng Data Mining vấn đề quan trọng đơn vị, tổ chức có nhu cầu thu thập tìm kiếm thơng tin Internet Các hệ thống tìm kiếm thơng tin hay nói ngắn gọn máy tìm kiếm Web thơng thường trả lại danh sách tài liệu phân hạng mà người dùng phải tốn công chọn lọc danh sách dài để có tài liệu phù hợp Ngồi thơng tin thường phong phú, đa dạng liên quan đến nhiều đối tượng khác Điều tạo nên nhập nhằng gây khó khăn cho người sử dụng việc lấy thơng tin cần thiết Có nhiều hướng tiếp cận khác để giải vấn đề này, hường thường ý giảm nhập nhằng phương pháp tìm kiếm trích chọn thơng tin hay thêm tùy chọn để cắt bớt thông tin hướng biểu diễn thông tin trả máy tìm kiếm thành cụm, lớp người dùng dễ dàng tìm thơng tin mà họ cần Đã có nhiều thuật tốn phân cụm, phân lớp để tìm kiếm thơng tin Tuy nhiên việc tập hợp tài liệu máy tìm kiếm q lớn ln thay đổi để phân cụm ngoại tuyến Do đó, việc phân cụm phải ứng dụng tập tài liệu nhỏ trả từ truy vấn thay trả danh sách dài thông tin gây nhập nhằng cho người sử dụng cần có phương pháp tổ chức lại kết tìm kiếm cách hợp lý Do vấn đề cấp thiết đề cập nên nhóm em chọn đề tài: “Nghiên cứu khai phá liệu Web Ứng dụng tìm kiếm trích chọn thơng tin chủ đề” Mục tiêu nhiệm vụ nghiên cứu Mục đích đề tài nghiên áp dụng tìm kiến trích chọn mẫu mới, hữu ích, hiểu được, tiềm ẩn Web Những thơng tin theo chủ đề nhanh, xác đầy đủ, thông tin tiềm ẩn bên nội dung Web thơng tin quan trọng hay luồng thông tin tốt trang Web tìm kiếm trả kết phù hợp với yêu cầu người dùng Mục tiêu cụ thể sau” Nghiên cứu tìm kiếm Nghiên cứu ký thuật tìm kiếm Web Hiểu tìm kiếm cách nhanh chóng xác Web Thơng tin tìm kiếm Web đầy đủ nguyên vẹn, cô đọng Nghiên cứu trích chọn Những thơng tin cần khai thác tiềm ẩn câu, vùng văn phân vùng trang Web Những vấn đề khó khăn thực việc trích chọn thơng tin chủ đề ẩn Web Đưa luồng thông tin theo chủ đề tốt để đáp ứng yêu cầu người sử dụng Ứng dụng thực tế Sử dụng quy trình khai phá liệu dạng Web việc tìm kiếm trích chọn thơng tin theo chủ đề trang Web vào thực tế để đáp ứng theo yêu cầu người sử dụng Lấy nững thông tin quý giá tiềm ẩn bên trang Web đó, để đáp ứng yêu cầu tìm kiếm tối ưu cho người dùng Tìm kiếm trích chọn mẫu tri thức hấp dẫn (không tầm thường, ẩn, chưa biết hữu dụng tiềm năng) từ tập hợp lớn liệu, để kết đạt đáp ứng yêu cầu xã hội CHƯƠNG 1: GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu Khai phá liệu (Data Mining) rút trích liệu tri thức quan trọng từ khối liệu lớn (Data set) Ngày nay, lượng liệu ngày tăng lên khiến cho bị ngập khối liệu khổng lồ đó, liệu thực có giá trị lại nằm khối liệu Do vậy, khai phá liệu (Data mining) đời để giúp ta chắt lọc thơng tin có giá trị từ khối liệu thô khổng lồ ta nhận Khai phá liệu bước bảy bước trình KDD (Knowledge Discovery in Database - Khám phá tri thức sở liệu) KDD xem trình khác theo thứ tự sau: Làm liệu (data cleaning & preprocessing): Loại bỏ nhiễu liệu không cần thiết Tích hợp liệu: (data integration): Q trình hợp liệu thành kho liệu (data warehouses & data marts) sau làm tiền xử lý (data cleaning & preprocessing) Trích chọn liệu (data selection): Trích chọn liệu từ kho liệu sau chuyển đổi dạng thích hợp cho q trình khai thác tri thức Q trình bao gồm việc xử lý với liệu nhiễu (noisy data), liệu không đầy đủ (incomplete data), v.v Chuyển đổi liệu: Các liệu chuyển đổi sang dạng phù hợp cho trình xử lý Khai phá liệu(data mining): Là bước quan trọng nhất, sử dụng phương pháp thông minh để chắt lọc mẫu liệu Ước lượng mẫu (knowledge evaluation): Q trình đánh giá kết tìm thơng qua độ đo Biểu diễn tri thức (knowledge presentation): Quá trình sử dụng kỹ thuật để biểu diễn thể trực quan cho người dùng 1.2 Các chức khai phá liệu Data Mining chia nhỏ thành số hướng sau: • Mơ tả khái niệm (concept description): Thiên mơ tả, tổng hợp tóm tắt khái niệm Ví dụ: tóm tắt văn • Luật kết hợp (association rules): Là dạng luật biểu diễn tri thứ dạng đơn giản Ví dụ: “60 % nam giới vào siêu thị mua bia có tới 80% số họ mua thêm thịt bò khơ” Luật kết hợp ứng dụng nhiều lĩnh vực kính doanh, y học, tin-sinh, tài & thị trường chứng khốn, v.v • Phân lớp dự đoán (classification & prediction): Xếp đối tượng vào lớp biết trước Ví dụ: phân lớp vùng địa lý theo liệu thời tiết Hướng tiếp cận thường sử dụng số kỹ thuật machine learning định (decision tree), mạng nơ ron nhân tạo (neural network), v.v Người ta gọi phân lớp học có giám sát (học có thầy) • Phân cụm (clustering): Xếp đối tượng theo cụm (số lượng tên cụm chưa biết trước Người ta gọi phân cụm học khơng giám sát (học khơng thầy) • Khai phá chuỗi (sequential/temporal patterns): Tương tự khai phá luật kết hợp có thêm tính thứ tự tính thời gian Hướng tiếp cận ứng 10 Lợi mạng nơron đưa đến kết xác, bất lợi thường đòi hỏi thời gian huấn luyện dài đưa kết khó hiểu, cứng nhắc, bị bao bọc hộp đen, khó giải thích tường minh d) Giải thuật di truyền (Genetic algorithms) Các giải thuật di truyền sử dụng để đưa công thức giả thuyết phụ thuộc biến Đối với giải thuật di truyền phải sử dụng giải pháp cạnh tranh, lựa chọn kết hợp tập hợp cá thể Lợi Giải thuật di truyền thường đưa đến kết kiểm tra xác, bất lợi kết có thơng qua việc lập trình tiến hóa kết thường cứng nhắc, khó hiểu e) Mạng Bayesian (Bayesian networks) Trong mạng Bayesian sử dụng đồ thị có hướng, khơng có chu trình để miêu tả phân lớp Các đồ thị sử dụng để miêu tả tri thức chuyên gia Các nút miêu tả biến thuộc tính trạng thái (sự kiện) cạnh miêu tả khả phụ thuộc chúng Kết hợp với nút lớp cục cung vẽ từ nút nguyên nhân đến nút bị ảnh hưởng KPDL mạng Bayesian bao gồm việc sử dụng đầu vào tri thức chuyên gia sau sử dụng CSDL để cập nhật, lọc cải tiến tri thức mạng Các đồ thị kết từ cải tiến nguyên nhân mối quan hệ nút kết giải thích cách dễ dàng Lợi mạng Bayesian thường đưa kết dễ hiểu, bất lợi cần thu thập tri thức chuyên gia truyền thống f) Tập mờ tập thô (Rough and Fuzzy Sets) Lý thuyết tập mờ tập thô dựa sơ sở tốn học khơng chắn Đối với mơ hình tập thơ, giới hạn giới hạn xác định Một tập thô định nghĩa lớp C xấp xỉ hai tập Tập cận (lower) C bao gồm tất mẫu liệu, mà dựa vào tri thức mẫu liệu định mẫu thuộc phân lớp C cách rõ ràng Tập cận C bao gồm tất mẫu với giá trị thuộc tính mô tả thuộc vào phân lớp C Mô hình tập mờ khơng dốc cực đại cục thuật toán 45 định, giống mơ hình tập thơ, chúng dùng để đối phó với điều khơng chắn tốt thuật tốn khác 2.9.2 Phân nhóm- đoạn (Clustering / Segmentation) Mục tiêu việc phân nhóm liệu nhóm đối tượng tương tự tập liệu vào nhóm cho mức độ tương tự đối tượng nhóm lớn mức độ tương tự đối tượng nằm nhóm khác nhỏ Các nhóm tách phân cấp gối lên số lượng nhóm chưa biết trước Một đối tượng vừa thuộc nhóm này, vừa thuộc nhóm khác Khơng giống phân lớp liệu, phân nhóm liệu khơng đòi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì thế, coi phân nhóm liệu cách học quan sát (learning by observation), phân lớp liệu học ví dụ (learning by example) Trong phương pháp bạn khơng thể biết kết nhóm thu bắt đầu trình Vì vậy, thơng thường cần có chun gia lĩnh vực để đánh giá nhóm thu Phân nhóm gọi học khơng có giám sát (unsupervised learning) Phân nhóm liệu sử dụng nhiều ứng dụng phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web, … Ngồi phân nhóm liệu sử dụng bước tiền xử lý cho thuật toán KPDL khác 2.10 Những thách thức khai phá liệu Mức độ nhiễu cao liệu KPDL Tiêu chuẩn mạnh mẽ giải thuật nhiễu trở nên quan trọng tiêu chuẩn khác phần giảm bớt Kích thước lớn tập liệu cần xử lý Các tập liệu KPDL thường có kích thước lớn Trong thực tế, kích thước tập liệu KPDL thường mức tera-byte Với kích thước thế, thời gian xử lý thường dài Thêm vào đó, giải thuật học truyền thống thường yêu cầu tập liệu tải toàn lên nhớ để xử lý Mặc dù kích thước nhớ máy tính gia tăng đáng kể thời gian gần đây, việc gia tăng đáp ứng kịp với việc tăng kích thước liệu Vì vậy, việc vận dụng 46 kỹ thuật xác suất, lấy mẫu, đệm, song song tăng dần vào giải thuật để tạo phiên phù hợp với yêu cầu KPDL trở nên ngày quan trọng Các kỹ thuật KPDL hướng tác vụ hướng liệu Thay tập trung vào xử lý tri thức dạng kí hiệu khái niệm máy học, phát triển KPDL kết chặt vào ứng dụng thực tế đặc tính liệu cụ thể ứng dụng Ví dụ, luật kết hợp kỹ thuật KPDL nhằm tìm kiếm mối liên kết hàng hóa đơn siêu thị Giải thuật học kỹ thuật phát triển dựa đặc tính liệu đặc thù dạng nhị phân 47 CHƯƠNG 3: DEMO ỨNG DỤNG THUẬT TOÁN 3.1 Chuẩn bị liệu 3.1.1 Lấy RSS (file xml) Lấy liệu RSS từ trang http://www.cnn.com Đối với mục, ta lấy tên tiêu đề mô tả mục lưu vào file theo chủ đề Ở ta có 13 chủ đề trang CNN là: Africa, America, Asia, Europe, Middle East, US, Business, Entertainment, Football, Sport, Spaces, Technology and Travel Hình 3: Dữ liệu XML gốc lấy từ tramg web Tất tài liệu có chung chủ đề lưu trữ tên lớp txt (mỗi dòng tài liệu), theo ta có 13 tệp Hình 4: Dữ liệu XML sau chia theo chủ đề 48 3.1.2 Xử lý liệu thơ Hình 5: Xử lý liệu thô Làm liệu cách loại bỏ dấu câu Hình 6: Làm liệu Xử lý từ dừng (stop word): Từ dừng từ dùng để biểu diễn cấu trúc câu không biểu đạt nội dung văn bản, ví dụ từ nối, giới từ…Những từ xuất nhiều văn lại không liên quan đến chủ đề nội dung văn 49 Hình 7: Các từ thông dụng 3.1.3 Đưa từ nguyên thể http://snowball.tartarus.org/algorithms/porter/stemmer.html Dựa vào định nghĩa Hình 8: Bảng quy ước để chuyển từ nguyển thẻ 50 Hình 9: Hình ảnh sau chuyển từ nguyên thể Tách tệp tin thành từ lưu vào file khác Hình 10: Các từ dừng (stop word) 51 Tính độ quan trọng từ  tf(w): tần số thuật ngữ (số từ xuất tài liệu) Từ quan trọng xuất nhiều tài liệu  df(w): tần số tài liệu (số tài liệu có từ này) Từ quan trọng xuất tài liệu  N: số lượng tài liệu  tfidf(w): quan trọng tương đối từ tài liệu Với tài liệu ta có biểu đồ Lưu vào file TFIDF files Hình 11: Cấu trúc Folder TFIDF 52 Hình 12: Nội dung file TFIDF 3.2 Các bước tìm kiếm độ tương đồng 3.2.1 Truy vấn chuỗi đầu vào với lớp Trong trường hợp sử dụng, muốn tìm kiếm văn với lớp tạo N văn kết Định dạng chuỗi truy vấn: Class + Nội dung 13_Travel_Helsinki: World Design Capital 2012.txt Helsinki: World Design Capital 2012 A city defined by the natural contours of the land, hugging the sea and pinpricked by rocky outcrops, Helsinki has been planned to fit around thelandscape planned to fit around the landscape Làm tất task (từ phổ biến, làm sạch, bắt nguồn, ) phía cho chuỗi truy vấn, đặt file (.txt) 53 Hình 13: Tính độ quan trọng từ 3.2.2 Độ xác, hồi quy độ đo F1 Nó có ý nghĩa tài liệu chiết xuất có lớp với lớp truy vấn Theo project, phải xem xét N = 10 tài liệu trích xuất (số lượng kết hiển thị đầu ra) 54 Ma trận:  TP = số điểm tích cực bên vòng tròn (N = 10)  FP = số điểm tiêu cực bên vòng tròn (N = 10) = 10-TP  FN = số điểm tiêu cực = số tài liệu class -TP  TN = tất điểm - (TP + FP + FN) a đầu vào beta=0.5f Số tài liệu chiết xuất =10 Một văn truy với class 8_Entertainment_Kid Rock to Obama: Kid Rock to Obama: 'No hard feelings' Kid Rock talks about his recent encounter with President Obama ahead of the Kennedy Center Honors Hình 14: Ảnh kết đầu vào 55 + Input: - Nội dung cài liệu cần tìm kiếm - Number of extacted results: Số kết trả - Beta: 0.5 +Output - Distance: Khoảng cách văn - Number of documents in this class: Số lượng tài liệu lớp - TP: Những tài liệu có lớp có tương đồng với tài liệu đầu vào - FP: Những tài liệu khác lớp có tương đồng với tài liệu đầu vào - FN: Số tài liệu có lớp khơng có tương đồng với tài liệu - TN: Số tài liệu không thuộc TP, FP FN b đầu vào beta=0.5f Số tài liệu chiết xuất =10 Một văn truy với class 13_Travel_Helsinki: World Design Capital 2012.txt Helsinki: World Design Capital 2012 A city defined by the natural contours of the land, hugging the sea and pinpricked by rocky outcrops, Helsinki has been planned to fit around the landscape Hình 15: Ảnh kết đầu vào 56 KẾT LUẬN Về mặt khoa học Nghiên cứu tiến hành phân tích, tìm hiểu quy trình khai phá liệu wed Ứng dụng tìm kiếm trích chọn thơng tin chủ đề Phát đề hạn chế để đề xuất đưa giải pháp nhằm có phương án khác phục để nâng cao hiệu cơng việc tim kiếm trích chọn thơng tin theo chủ đề nhanh xác Nắm bắt phương pháp mơ hình như: Phương pháp tính độ tương đồng, Mơ hình tần suất … Nghiên cứu vận dụng giải thuật K-means, Euclid… để xây dựng mơ hình khai phá liệu web theo chủ đề Về mặt thực tiễn Tìm kiếm trích chọn thơng tin web theo chủ đề giúp chung ta có nhìn tổng thể, biết bật khứ đâu xu hương thông tin đâu hướng lên tương lai gần Tổng hợp thông tin hướng chủ đề wed giúp chung ta xếp lại thông tin theo dõi luồng thông tin tốt Hệ thống giúp cho việc tìm kiếm trích chọn thơng tin nhanh xác, giúp cho chung ta đưa định cách kịp thời, khoa học, tránh tình định theo cảm tính.Tổng hợp thơng tin hướng chủ đề web giúp xếp lại thông tin theo dõi luồng thông tin tốt hơn, giúp cho nhà quản lý đưa định nhà kinh tế dự báo trước rủi ro xảy 57 TÀI LIỆU THAM KHẢO [1] https://en.wikipedia.org/wiki/Confusion_matrix [2] http://www.lextek.com/manuals/onix/stopwords1.html [3] http://snowball.tartarus.org/algorithms/porter/stemmer.html [4] DATA MINING IN P2P QUERIES ROUTING USING DECISION TREES Anis ISMAIL, Mohamed QUAFAFOU, Gille NACHOUKI, and Mohammad HAJJAR [5] Bài giảng “Khai Phá Dữ Liệu Web” – PGS TS Hà Quang Thụy [6] Một số tài liệu tham khảo khác 58 NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN Thái Nguyên, ngày … tháng … năm 2017 Giảng viên hướng dẫn 59 ... phương pháp tổ chức lại kết tìm kiếm cách hợp lý Do vấn đề cấp thiết đề cập nên nhóm em chọn đề tài: Nghiên cứu khai phá liệu Web Ứng dụng tìm kiếm trích chọn thông tin chủ đề Mục tiêu nhiệm vụ nghiên. .. ẩn Web Đưa luồng thông tin theo chủ đề tốt để đáp ứng yêu cầu người sử dụng Ứng dụng thực tế Sử dụng quy trình khai phá liệu dạng Web việc tìm kiếm trích chọn thơng tin theo chủ đề trang Web vào... THIỆU VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu 1.2 Các chức khai phá liệu 10 1.3 Khai phá liệu văn (TextMining) khai phá liệu web (WebMining) 11 1.3.1 Các toán khai phá liệu

Định dạng
Số trang	59
Dung lượng	2,54 MB