MỞ ĐẦU Trong những năm gần đây, sự phát triển vượt bậc của công nghệ thông tin đã làm tăng số lượng giao dịch thông tin trên Internet một cách đáng kể. Phương thức sử dụng giấy tờ trong giao dịch đã dần được số hóa chuyển sang các dạng văn bản lưu trữ trên máy tính hoặc truyền tải trên mạng. Bởi nhiều tính năng ưu việt của tài liệu số như cách lưu trữ gọn nhẹ, thời gian lưu trữ lâu dài, dễ dàng sửa đổi, tiện dụng trong trao đổi đặc biệt là qua Internet. Do đó mà số lượng văn bản xuất hiện trên Internet cũng tăng theo với một tốc độ chóng mặt, dẫn đến tình trạng quá tải đối với việc xử lý thông tin do lượng thông tin không ngừng tăng lên. Cùng với sự tiến bộ vượt bậc của công nghệ thông tin là sự phát triển mạnh mẽ của mạng thông tin toàn cầu, nguồn dữ liệu web trở thành kho dữ liệu khổng lồ. Do đó, việc nghiên cứu các mô hình dữ liệu mới và áp dụng các phương pháp để tìm kiếm nhanh chóng tài nguyên web là một xu thế tất yếu. Với số lượng thông tin đồ sộ như vậy, một yêu cầu lớn đặt ra với chúng ta là làm sao tổ chức và tìm kiếm thông tin một cách hiệu quả nhất. Phân loại thông tin là một giải pháp hợp lý cho yêu cầu trên. Nhưng một thực tế là khối lượng thông tin quá lớn, việc phân loại thủ công là điều không tưởng. Hướng giải quyết là một chương trình máy tính tự động phân loại các thông tin trên. Do đó, việc nghiên cứu các mô hình dữ liệu mới và áp dụng các phương pháp khai phá dữ liệu trong khai phá tài nguyên Web là một xu thế tất yếu vừa có ý nghĩa khoa học vừa mang ý nghĩa thực tiễn cao. Ngày nay, nhờ sự cải tiến không ngừng của các công cụ tìm kiếm về cả chức năng tìm kiếm lẫn giao diện đã giúp cho người sử dụng dễ dàng hơn trong việc tìm kiếm thông tin trên web. Tuy nhiên, người sử dụng thường vẫn phải duyệt qua hàng trăm, thậm chí hàng ngàn trang Web mới có thể tìm kiếm được thứ mà họ cần. Nhằm giải quyết vấn đề này, ta có thể nhóm các kết quả tìm kiếm thành các nhóm theo từng chủ đề, khi đó người dùng có thể bỏ qua các nhóm mà họ không quan tâm để tìm đến nhóm chủ đề quan tâm. Điều này sẽ giúp cho người dùng thực hiện công việc tìm kiếm một cách hiệu quả hơn. Đặc biệt trong vấn đề giải quyết văn bản. Văn bản có rất nhiều loại, khi muốn tìm kiếm bất kỳ văn bản nào trên web nếu làm bằng thủ công cũng rất khó khăn và mất nhiều thời gian. Với số lượng văn bản đồ sộ như thế cần có một giải pháp để tìm kiếm văn bản được nhanh hơn. Vì thế việc ứng dụng phân cụm dữ liệu để tìm kiếm văn bản theo chủ đề là một vấn đề rất cần thiết. Vì vậy, tôi chọn đề tài “Nghiên cứu phân cụm dữ liệu web và ứng dụng” để làm luận văn cho mình. Mục tiêu của luận văn là: Nghiên cứu một số kỹ thuật phân cụm dữ liệu trên các trang web và ứng dụng xây dựng hệ thống tìm kiếm các văn bản theo một số chủ đề. Luận văn tập trung nghiên cứu cấu trúc Web, các kỹ thuật phân cụm, phân cụm web và các chủ đề chính liên quan phục vụ công tác điều hành quản lý cấp huyện. Phương pháp nghiên cứu chủ yếu là thu thập và phân tích các tài liệu và thông tin liên quan đến đề tài, căn cứ thực trạng công việc li ên quan và tham khảo ý kiến chuyên gia. Luận văn tập trung trình bày các nội dung sau: 1. Tổng quan về khai phá dữ liệu, bao gồm: Giới thiệu về Khai phá dữ liệu và khai phá dữ liệu web; các hướng tiếp cận khai phá dữ liệu web, nhu cầu phân cụm tài liệu Web, xử lý dữ liệu văn bản ứng dụng trong khai phá dữ liệu Web 2. Một số kỹ thuật phân cụm dữ liệu và phân cụm dữ liệu web, bao gồm: Các yêu cầu đối với kỹ thuật phân cụm dữ liệu; một số thuật toán cơ bản trong
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC TRẦN THỊ GEN NI Nghiªn cøu ph©n côm d÷ liÖu web vµ øng dông CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Huế, 2015 MỤC LỤC Lời cam đoan Lời cảm ơn Mục lục Danh mục bảng Danh mục hình MỞ ĐẦU Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu Khai phá liệu 1.1.1 Các chức khai phá liệu 1.1.2 Các phương pháp khai phá liệu 1.1.3 Ứng dụng khai phá liệu 1.2 Khai phá liệu web 1.2.1 Dữ liệu Web nhu cầu khai thác thông tin 1.2.2 Đặc điểm liệu Web 1.2.3 Các kiểu liệu Web 1.3 Các hướng tiếp cận khai phá liệu web 10 1.4 Nhu cầu phân cụm tài liệu Web 11 1.5 Xử lý liệu văn ứng dụng khai phá liệu Web 12 1.5.1 Dữ liệu văn 12 1.5.2 Một số vấn đề xử lý liệu văn 13 1.5.3 Các mô hình biểu diễn liệu văn 16 1.6 Kết luận chương 20 Chương MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU 22 2.1 Tổng quan kỹ thuật phân cụm 22 2.2 Các yêu cầu kỹ thuật phân cụm liệu 25 2.3 Các ứng dụng phân cụm liệu 27 2.4 Một số thuật toán phân cụm liệu 28 2.4.1 Các thuật toán phân cụm phân hoạch 28 2.4.2 Các thuật toán phân cụm phân cấp 33 2.5 Các đặc tính thuật toán phân cụm web 38 2.5.1 Mô hình liệu 38 2.5.2 Độ đo tương tự 41 2.5.3 Mô hình phân cụm 42 2.6 Các yêu cầu thuật toán phân cụm Web 43 2.6.1 Tách thông tin đặc trưng 43 2.6.2 Phân cụm chồng lặp 44 2.6.3 Hiệu suất 44 2.6.4 Khả khử nhiễu 45 2.6.5 Tính tăng 45 2.6.6 Việc biểu diễn kết 45 2.7 Một số kỹ thuật Phân cụm Web điển hình 46 2.7.1 Phân cụm theo thứ bậc 46 2.7.2 Phân cụm cách phân mảnh 49 2.8 Kết luận chương 51 Chương ỨNG DỤNG VỀ PHÂN CỤM DỮ LIỆU WEB 52 3.1 Môi trường thực nghiệm: 52 3.2 Công cụ thực nghiệm: 52 3.3 Chuẩn bị liệu 53 3.4 Quá trình thực nghiệm 53 3.5 Thiết kế sở liệu 54 3.6 Chương trình thử nghiệm 56 3.7 Kết luận chương 58 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 59 TÀI LIỆU THAM KHẢO 61 PHỤ LỤC DANH MỤC CÁC BẢNG Số hiệu bảng Tên bảng Trang 1.1 Thống kê tần số xuất cao 14 3.1 Môi trường thực nghiệm 52 3.2 Bảng Urls (địa website) 55 3.3 Bảng Channels (kênh tin) 55 3.4 Items (tin tức) 55 DANH MỤC CÁC HÌNH Số hiệu Tên hình vẽ hình vẽ Trang 1.1 Các bước Data Mining & KDD 1.2 Phân loại liệu Web 1.3 Lược đồ thống kê tần số từ theo Định luật Zipf 16 2.1 Mô PCDL 23 2.2 Các thiết lập để xác định ranh giới cụm ban đầu 28 2.3 Tính toán trọng tâm cụm 29 2.4 Ví dụ bước thuật toán k-means 31 2.5 Sự thay đổi tâm cụm k-means có phần tử ngoại lai 32 2.6 Phân cụm phân cấp Top-down Bottom-up 34 2.7 Single Link 34 2.8 Complete Link 34 2.9 Các bước AGNES 35 2.10 Ví dụ bước thuật toán AGNES 36 2.11 Các bước DIANA 37 3.1 Một ví dụ dendogram phân cụm sử dụng phân cụm có thứ bậc 46 3.2 Màn hình chức hỗ trợ lấy liệu từ Internet 57 3.3 Màn hình chức hỗ trợ tìm kiếm 58 MỞ ĐẦU Trong năm gần đây, phát triển vượt bậc công nghệ thông tin làm tăng số lượng giao dịch thông tin Internet cách đáng kể Phương thức sử dụng giấy tờ giao dịch dần số hóa chuyển sang dạng văn lưu trữ máy tính truyền tải mạng Bởi nhiều tính ưu việt tài liệu số cách lưu trữ gọn nhẹ, thời gian lưu trữ lâu dài, dễ dàng sửa đổi, tiện dụng trao đổi đặc biệt qua Internet Do mà số lượng văn xuất Internet tăng theo với tốc độ chóng mặt, dẫn đến tình trạng tải việc xử lý thông tin lượng thông tin không ngừng tăng lên Cùng với tiến vượt bậc công nghệ thông tin phát triển mạnh mẽ mạng thông tin toàn cầu, nguồn liệu web trở thành kho liệu khổng lồ Do đó, việc nghiên cứu mô hình liệu áp dụng phương pháp để tìm kiếm nhanh chóng tài nguyên web xu tất yếu Với số lượng thông tin đồ sộ vậy, yêu cầu lớn đặt với tổ chức tìm kiếm thông tin cách hiệu Phân loại thông tin giải pháp hợp lý cho yêu cầu Nhưng thực tế khối lượng thông tin lớn, việc phân loại thủ công điều không tưởng Hướng giải chương trình máy tính tự động phân loại thông tin Do đó, việc nghiên cứu mô hình liệu áp dụng phương pháp khai phá liệu khai phá tài nguyên Web xu tất yếu vừa có ý nghĩa khoa học vừa mang ý nghĩa thực tiễn cao Ngày nay, nhờ cải tiến không ngừng công cụ tìm kiếm chức tìm kiếm lẫn giao diện giúp cho người sử dụng dễ dàng việc tìm kiếm thông tin web Tuy nhiên, người sử dụng thường phải duyệt qua hàng trăm, chí hàng ngàn trang Web tìm kiếm thứ mà họ cần Nhằm giải vấn đề này, ta nhóm kết tìm kiếm thành nhóm theo chủ đề, người dùng bỏ qua nhóm mà họ không quan tâm để tìm đến nhóm chủ đề quan tâm Điều giúp cho người dùng thực công việc tìm kiếm cách hiệu Đặc biệt vấn đề giải văn Văn có nhiều loại, muốn tìm kiếm văn web làm thủ công khó khăn nhiều thời gian Với số lượng văn đồ sộ cần có giải pháp để tìm kiếm văn nhanh Vì việc ứng dụng phân cụm liệu để tìm kiếm văn theo chủ đề vấn đề cần thiết Vì vậy, chọn đề tài “Nghiên cứu phân cụm liệu web ứng dụng” để làm luận văn cho Mục tiêu luận văn là: Nghiên cứu số kỹ thuật phân cụm liệu trang web ứng dụng xây dựng hệ thống tìm kiếm văn theo số chủ đề Luận văn tập trung nghiên cứu cấu trúc Web, kỹ thuật phân cụm, phân cụm web chủ đề liên quan phục vụ công tác điều hành quản lý cấp huyện Phương pháp nghiên cứu chủ yếu thu thập phân tích tài liệu thông tin liên quan đến đề tài, thực trạng công việc liên quan tham khảo ý kiến chuyên gia Luận văn tập trung trình bày nội dung sau: Tổng quan khai phá liệu, bao gồm: Giới thiệu Khai phá liệu khai phá liệu web; hướng tiếp cận khai phá liệu web, nhu cầu phân cụm tài liệu Web, xử lý liệu văn ứng dụng khai phá liệu Web Một số kỹ thuật phân cụm liệu phân cụm liệu web, bao gồm: Các yêu cầu kỹ thuật phân cụm liệu; số thuật toán phân cụm liệu; đặc tính thuật toán phân cụm web yêu cầu thuật toán phân cụm Web; số kỹ thuật phân cụm Web điển hình Ứng dụng phân cụm liệu web, bao gồm: trình bày trình xây dựng chương trình ứng dụng từ chuẩn bị liệu, thiết kế sở liệu đén cài đặt chương trình thử nghiệm đánh giá kết Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu Khai phá liệu Khái niệm Khai phá liệu (Data Mining) Khai phá liệu định nghĩa trình chắt lọc hay khám phá tri thức từ lượng lớn liệu Thuật ngữ Data Mining ám việc tìm tập nhỏ có giá trị từ lượng lớn liệu thô Hai khái niệm KPDL KDD nhà khoa học hai lĩnh vực xem tương đương với Tuy nhiên, phân chia cách chi tiết có phân biệt khái niệm "Khai phá liệu" với khái niệm "Phát tri thức" (Knowledge Discovery in Databases - KDD) mà theo đó, khai phá liệu bước trình KDD Định nghĩa 1.1: Khai phá liệu tập hợp kỹ thuật sử dụng để tự động khai thác tìm mối quan hệ lẫn liệu tập hợp liệu khổng lồ phức tạp, đồng thời tìm mẫu tiềm ẩn tập liệu [1] Khai phá liệu bước bảy bước trình KDD (Knowleadge Discovery in Database) KDD xem trình khác theo thứ tự sau: Làm liệu (data cleaning & preprocessings): Loại bỏ nhiễu liệu không cần thiết Tích hợp liệu (data integration): trình hợp liệu thành kho liệu (data warehouses & data marts) sau làm tiền xử lý (data cleaning & preprocessing) Trích chọn liệu (data selection): trích chọn liệu từ kho liệu sau chuyển đổi dạng thích hợp cho trình khai thác tri thức Quá Chương ỨNG DỤNG VỀ PHÂN CỤM DỮ LIỆU WEB Luận văn tiến hành thực nghiệm cài đặt thuật toán phân cụm K-means dựa tư tưởng tìm kiếm trang web từ website thỏa mãn nội dung truy vấn Trích rút thông tin mô tả từ trang lưu trữ với url tương ứng Sử dụng kỹ thuật phân cụm liệu để phân cụm tự động trang Web thành cụm, cho trang cụm “tương tự” nội dung với trang cụm 3.1 Môi trường thực nghiệm: Bảng 3.1 Môi trường thực nghiệm Thành phần Chỉ số CPU Intel Core i3- 380M 2.53Ghz RAM GB DDR3 HDD 500Gb Hệ điều hành Windown 8.1 3.2 Công cụ thực nghiệm: Để thực nghiệm kết phân cụm sử dụng ngôn ngữ lập trình C# tảng Net Framework Microsoft Visual studio 2010 sử dụng SQL Server 2008 để lưu trữ sở liệu Bên cạnh đó, tự xây dựng chương trình lọc bỏ html tag lọc bỏ từ nhiễu trình tiền xử lý chương trình phân cụm đánh giá kết phân cụm với chủ đề ẩn thuật toán K-means 3.3 Chuẩn bị liệu - Lấy liệu từ Internet Dữ liệu phân cụm lấy từ Internet cách độc lập với việc phân cụm Chương trình định nghĩa sẵn ngưỡng n cho việc lấy liệu từ Internet Điều có nghĩa là, sau người quản trị cung cấp cho chương trình URL, chương trình tự động lấy URL bao gồm tiêu đề, mô tả trang web từ URL sau phân tích nội dung trang web, tìm URL khác nằm trang web Quá trình lặp lại với URL tìm độ sâu n thỏa mãn Như với độ sâu n phù hợp, ta lấy toàn nội dung trang Web Dữ liệu trích rút từ website: http://tayhoa.phuyen.gov.vn; http://phuhoa.phuyen.gov.vn; http://phuyen.gov.vn; http://chinhphu.vn Đây website lưu trữ lượng thông tin loại văn đạo điều hành, cập nhật liên tục trải rộng nhiều chủ đề Chúng tiến hành trích rút theo 08 chủ đề sau: Nông nghiệp; Kinh tế, Xây dựng, Giao thông, Y tế, Giáo dục, Pháp luật, Văn hóa, An ninh – Quốc phòng 3.4 Quá trình thực nghiệm - Quá trình tìm kiếm phân cụm tài liệu: Về bản, trình phân cụm kết tìm kiếm diễn bước: + Tìm kiếm trang Web từ Website thỏa mãn nội dung truy vấn + Trích rút thông tin mô tả từ trang lưu trữ với URL tương ứng + Sử dụng kỹ thuật phân cụm liệu để phân cụm tự động trang Web thành cụm, cho trang cụm “tương tự” nội dung với trang cụm dựa vào tần suất xuất từ tài liệu - Tìm kiếm liệu Web: Nhiệm vụ chủ yếu giai đoạn dựa vào tập từ khóa tìm kiếm để tìm kiếm trả tập gồm toàn văn tài liệu, tiêu đề, mô tả tóm tắt, URL… tương ứng với trang - Tiền xử lý liệu: Làm liệu chuyển dịch tài liệu thành dạng biểu diễn liệu thích hợp - Chuẩn hóa văn bản: Đây giai đoạn chuyển hóa văn thô dạng văn cho việc xử lý sau dễ dàng, đơn giản, thuận tiện, xác so với việc xử lý trực tiếp văn thô mà ảnh hưởng đến kết xử lý - Xóa bỏ từ dừng: Trong văn có từ mang thông tin quan trọng trình xử lý, từ có tần số xuất thấp, từ xuất với tần số lớn không quan trọng trình xử lý loại bỏ - Tách từ phân cụm Chức cho phép chương trình tách từ phân cụm liệu lấy - Tìm kiếm kết phân cụm Việc tìm kiếm áp dụng thuật toán bao gồm bước: Bước 1: Tính độ tương tự chuỗi tìm kiếm với đặc trưng phân cụm, độ tương tự lớn ngưỡng S1 đó, ta áp dụng bước cho phân cụm Bước 2: Tìm kiếm tài liệu phân cụm có độ tương tự cao ngưỡng S2 với chuỗi tìm kiếm 3.5 Thiết kế sở liệu Cơ sở liệu chương trình thiết kế hình phía Trong chức bảng mô tả sau: Bảng 3.2 Bảng Urls (địa website) tblUrls UrlID Int Độ dài uLink Varchar 50 uTitle Nvarchar 50 uDescription Nvarchar 50 STT Tên trường Kiểu liệu Ghi Diễn giải Khóa Mã địa Đường dẫn tới Khác rỗng website Tiêu đề website Đặc tả website Bảng 3.3 Bảng Channels (kênh tin) tblChannels ChannelID Int Độ dài cLink Varchar 50 cTitle Nvarchar 50 cDescription Nvarchar STT Tên trường Kiểu liệu MAX Ghi Diễn giải Khóa Mã kênh tin Đường dẫn tới Khác rỗng file RSS Tiêu đề kênh Khác rỗng tin Đặc tả chi tiết Khác rỗng kênh tin Bảng 3.4 Items (tin tức) tblItems Độ dài Ghi Diễn giải Khóa Mã tin tức Mã kênh tin Đường dẫn tới chi tiết tin tức Tiêu đề tin tức Nội dung chi tiết tin tức ItemID Kiểu liệu Int ChannelID Int Khác rỗng iLink Varchar 50 Khác rỗng iTitle Nvarchar 50 Khác rỗng iDescription Nvarchar Max Khác rỗng STT Tên trường Dưới sơ đồ liên kết thực thể bảng: 3.6 Chương trình thử nghiệm Áp dụng nghiên cứu lý thuyết phân cụm, chương trình thử nghiệm này, bước thực tách thành phần riêng Tương ứng với chức mô tả trên, chương trình bao gồm ba module chính: Từ điển, Lấy liệu, Phân cụm, Tìm kiếm - Module Từ điển: Việc xây dựng từ điển công việc quan trọng trình vector hóa văn bản, từ điển gồm từ, cụm từ riêng biệt toàn tập liệu Từ điển gồm bảng từ, số từ điển xếp theo thứ tự - Module Lấy liệu: Để xây dựng kho liệu tài liệu Web, ta tiến hành lấy liệu Người sử dụng nhập đường dẫn URL trang Web, hệ thống tự động tìm kiếm lấy tất nội dung trang Web với độ sâu n (đã định trước) - Module Phân cụm: Sau tiến hành lấy liệu, ta thực phân cụm tài liệu Hệ thống tiến hành phân cụm cách tự động - Module Tìm kiếm: Người sử dụng nhập vào từ khoá cần tìm kiếm Hệ thống tìm tài liệu liên quan từ khóa Hình 3.1 Một ví dụ dendogram phân cụm sử dụng phân cụm có thứ bậc Hình 3.2 Màn hình chức hỗ trợ lấy liệu từ Internet Hình 3.3 Màn hình chức hỗ trợ tìm kiếm Đánh giá kết quả: Chương trình hoạt động tốt theo yêu cầu, cho phép tải tin tức Kết bóc tách nội dung tốt, sai sót Kết phân cụm tương đối xác, nhiên số tin thử nghiệm chưa nhiều chưa có số liệu tỉ lệ sai sót Thời gian xử lý gom cụm tương đối chậm, phải tính toán toàn liệu So với số công cụ tìm kiếm khác Google, Yahoo…thì chương trình áp dụng phân cụm tìm kiếm văn số trang Web lĩnh vực nhà nước 3.7 Kết luận chương Chương kết cài đặt thử nghiệm thuật toán phân cụm cho tài liệu Web Chương trình cài đặt viết ngôn ngữ lập trình C# tảng Net Framework Microsoft Visual Studio 2010 sử dụng SQL Server 2010 để lưu trữ sở liệu Chương trình thực việc phân cụm với kết tương đối hợp lý KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Luận văn tìm hiểu kiến thức tổng quan khai phá liệu, ứng dụng phân cụm liệu khai phá liệu web, thuật toán phân cụm tài liệu chế hệ thống thu thập thông tin Đồng thời xây dựng ứng dụng phân cụm Web Luận văn thực nội dung sau: - Tìm hiểu tổng quan khai phá liệu, toán khai phá liệu ứng dụng - Tìm hiểu kỹ thuật phân cụm tài liệu, mo hình không gian vector biểu diễn tài liệu - Giới thiệu khái quát toán phân cụm web, giải pháp phân cụm web (các yêu cầu, kỹ thuật, đánh giá) ý tới tính tăng thuật toán phân cụm web - Đã phân tích nội dung kiến thức bản, tảng phát triển thuật toán - Luận văn đưa kết cài đặt phương pháp k-mean đưa kết tìm kiếm - Xây dựng phần mềm thử nghiệm phân cụm tài liệu Hệ thống máy tìm kiếm-do luận văn phát triển đưa lên web, có công cụ lưu câu truy vấn người dùng, phân cụm tìm thấy liên kết người dùng tới Hệ thống hoạt động thực việc phân cụm tài liệu Web Hướng phát triển Do hạn chế thời gian lực, luận văn áp dụng mô hình nhỏ Trong tương lai, tiến hành không tìm kiếm thông tin trang web mà tìm kiếm nhiều trang web Ngoài ra, nghiên cứu hướng giải vấn đề từ đồng nghĩa Tiếng Việt Tiếp tục nghiên cứu, đề xuất cải tiến số phương pháp phân cụm, nhằm nâng cao việc phân cụm, phân lớp ứng dụng việc tìm kiếm đạt kết tốt môi trường Web Tiến hành cài đặt tiếp tục nghiên cứu nhiều kỹ thuật khai phá liệu nữa, đặt biệt triển khai giải toán phân cụm ứng dụng việc tìm kiếm theo tên chủ đề TÀI LIỆU THAM KHẢO Tiếng việt Nguyễn Hoàng Tú Anh (2009), Giáo trình Khai thác liệu ứng dụng, (Đại học KHTN Tp Hồ Chí Minh Vũ Lan Phương (2006) Nghiên cứu cài đặt số giải thuật phân cụm phân lớp, Đại học Bách khoa Hà Nội Tiếng anh Athena Vakali (2004), Web data clustering Current research status & trends, In Aristotle University,Greece B BOSER, I GUYON, V VAPNIK (1992), A training algorithm for optimal margin classifiers, Proceedings of the Fifth Annual Workshop on Computational Learning Theory (ACM), pp 144-152 C BURGES (1998), A tutorial on Support Vector Machines for pattern recognition, Proceedings of Int Conference on Data Mining and Knowledge Discovery, Vol 2, No 2, pp 121-167 Bing Liu (2007), Web mining, Springer Haiyang Sui and Syin Chan (2003), Sentiment Classification of Product Reviews Using SVM and decition tree Induction, Nanyang Technological University Singapore Jiawei Han and Micheline Kamber (2007) “Data Mining Concepts and Techniques” Chapter & Chapter (Intelligent Database Systems Research Lab School of Computing Science Simon Fraser University, Canada) PHỤ LỤC Danh sách Stopwords sử dụng hệ thống bất thình kỳ ngày lình ngày mà thảy mày thể ngăn áà bây chùn ngắt nhiêu cắt chùn nghe nhược chùn chừng chũn ai chầy chừ cha chung nghiễm cục nhiên chà lâu chành chung dễ dà lâu chạnh qui thường chung quy hẳn chung nhiêu chăn quy lại chắn chúng hẳn ô chẳng chẳng lị nhiêu có ối biết chẳng đán chừng phải định loạt chầm luật bao chập coi mực nhiêu chừng nhất hay cô đành sinh đạch tâm không đánh tề phải công đùng thiết bắt đầu thị nhiên phải từ bập bà chốc chừng nhiên phăn hồ hậu dưng mà đâu nhón nhén không lập nhung nhiên cực tức nhăng lúc chơi với từ bất tức không nhược chưng khắc chốc ngày thể phương chốc chi vả sau tuồng chi vạn việc thi thoảng cực thảy trung trước thình số làquả tiên lình tang thỉnh thật thoảng tình veo với tràn cung tuốt tuồn nhiên mây tuột vung tàn chừng chưng tán độ vung tán đỗi nhiên tàn ví tháo vung sá thiên địa thể ví trời tuyệt vừa lự trời đất nhiên tất xá vô hình nhiên trước tức trước chí thục mạng xềnh trước xệch trước nhiên thúng thật thắng trước chà phết thực xoành bất ý trò xoạch thái thương xuống trọi mà ứừ ôi ý thành nên tiếp xuất kì bất ý chi tỏ xuất kỳ thảo đỗi rón mực rốt sau 58,57,37,36,35,32,31,5 mau 1-4,6-30,33-34,38-56,59-65 td [...]... lớp dữ liệu và Phân cụm dữ liệu 1.1.3 Ứng dụng của khai phá dữ liệu Khai phá dữ liệu thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng thực tiễn của nó Chúng ta có thể liệt kê ra đây một số ứng dụng điển hình: • Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis & decision support) • Điều trị y học (medical treatment) • Khai phá dữ liệu văn bản và khai... dụng cho phân cụm tài liệu với mô hình TFIDF 1.6 Kết luận chương 1 Chương 1 trình bày những kiến thức cơ bản về khai phá dữ liệu và khám phá tri thức trong CSDL, các kỹ thuật áp dụng trong khai phá dữ liệu, những chức năng chính, ứng dụng của nó trong xã hội, Chương này cũng trình bày một hướng nghiên cứu và ứng dụng trong khai phá dữ liệu là phân cụm dữ liệu, các ứng dụng của phân cụm, các kiểu dữ. .. Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện Vì thế, có thể coi phân cụm dữ liệu là một cách học bằng quan sát, trong khi phân lớp dữ liệu là học bằng ví dụ Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lí cho các thuật toán khai phá dữ liệu khác như là phân loại và mô tả đặc điểm, có tác dụng trong việc... phân cụm dữ liệu Phần đầu của chương sẽ trình bày tổng quan về kỹ thuật phân cụm, sau đó giới thiệu một số thuật toán cơ bản trong phân cụm dữ liệu 2.1 Tổng quan về kỹ thuật phân cụm Mục đích chính của PCDL nhằm khám phá cấu trúc của mẫu dữ liệu để thành lập các nhóm dữ liệu từ tập dữ liệu lớn, theo đó nó cho phép người ta đi sâu vào phân tích và nghiên cứu cho từng cụm dữ liệu này nhằm khám phá và tìm... quả khi áp dụng cho tập dữ liệu lớn (khoảng 1 triệu bản ghi) Thích nghi với các kiểu dữ liệu khác nhau: Thuật toán có thể áp dụng hiệu quả cho việc phân cụm các tập dữ liệu với nhiều kiểu dữ liệu khác nhau như dữ liệu kiểu số, kiểu nhị phân, dữ liệu định danh, hạng mục, và thích nghi với kiểu dữ liệu hỗn hợp Khám phá ra các cụm với hình thù bất kỳ: Do hầu hết các CSDL có chứa nhiều cụm dữ liệu với các... toán PCDL với các thứ tự vào của các đối tượng dữ liệu ở các lần thực hiện khác nhau thì không ảnh hưởng lớn đến kết quả phân cụm Khả năng thích nghi với dữ liệu nhiễu cao: Hầu hết các dữ liệu phân cụm trong KPDL đều chứa đựng các dữ liệu lỗi, dữ liệu không đầy đủ, dữ liệu rác Thuật toán phân cụm không những hiệu quả đối với các dữ liệu nhiễu mà còn tránh dẫn đến chất lượng phân cụm thấp do nhạy cảm với... này, nghiên cứu của ta về phân tích phân cụm diễn ra như sau: - Đầu tiên, ta nghiên cứu các kiểu dữ liệu khác nhau và cách chúng có thể gây ảnh hưởng tới các phương pháp phân cụm - Thứ hai, ta đưa ra một cách phân loại chung trong các phương pháp phân cụm - Sau đó, ta nghiên cứu chi tiết mỗi phương pháp phân cụm, bao gồm các phương pháp phân hoạch, phân cấp, dựa trên mật độ, Ta cũng khảo sát sự phân cụm. .. thị; - Nghiên cứu địa chấn: phân cụm để theo dõi các tâm động đất nhằm cung cấp thông tin cho việc nhận dạng các vùng nguy hiểm; - WWW: tài liệu phân loại, phân nhóm dữ liệu weblog để khám phá các nhóm về các hình thức tiếp cận tương tự trợ giúp cho việc khai phá thông tin từ dữ liệu 2.4 Một số thuật toán cơ bản trong phân cụm dữ liệu 2.4.1 Các thuật toán phân cụm phân hoạch Cho trước một cơ sở dữ liệu. .. liệu, cụ thể hơn là tài liệu Web trở thành bài toán cho các nhà khoa học nghiên cứu và giải quyết Sau đây chúng ta sẽ nghiên cứu tiếp các vấn đề liên quan tới bài toán phân cụm nêu trên Chương 2 MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU Trong Chương 1 chúng tôi đã tìm hiểu một số kiến thức về khai phá dữ liệu, những ứng dụng của nó trong xã hội Trong Chương 2 này chúng ta sẽ tìm hiểu một số kỹ thuật phân cụm. .. hành kiểu phân cụm trực tuyến (on-line) theo nghĩa việc phân cụm tiến hành theo từng bộ phận các tài liệu nhận được Khi đó, thuật toán phải có tính chất “gia tăng” để tiến hành phân cụm ngay khi chưa có đủ tài liệu và phân cụm tiếp theo không cần phải tiến hành với dữ liệu đã được phân cụm trước đó Do tập tài liệu trên Web là vô cùng lớn cho nên cách phân cụm trực tuyến là thích hợp hơn và phải đòi ... cụm liệu phân cụm liệu web, bao gồm: Các yêu cầu kỹ thuật phân cụm liệu; số thuật toán phân cụm liệu; đặc tính thuật toán phân cụm web yêu cầu thuật toán phân cụm Web; số kỹ thuật phân cụm Web. .. thuật áp dụng khai phá liệu, chức chính, ứng dụng xã hội, Chương trình bày hướng nghiên cứu ứng dụng khai phá liệu phân cụm liệu, ứng dụng phân cụm, kiểu liệu, Một hướng tiếp cận khai phá liệu. .. THUẬT PHÂN CỤM DỮ LIỆU 22 2.1 Tổng quan kỹ thuật phân cụm 22 2.2 Các yêu cầu kỹ thuật phân cụm liệu 25 2.3 Các ứng dụng phân cụm liệu 27 2.4 Một số thuật toán phân cụm liệu