1. Trang chủ
  2. » Công Nghệ Thông Tin

DATA MINNING Nghiên cứu giải thuật CLARA và ứng dụng trong gom cụm văn bản

29 1K 4

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 427,21 KB

Nội dung

Gom cụm dữ liệu là một phương pháp trong khai phá dữ liệu dùng để tìm kiếm, phát hiện các cụm, các mẫu dữ liệu ẩn và quan trọng trong tập dữ liệu lớn để từ đó cung cấp thông tin, tri thức cho việc ra quyết định. Thực tế hơn, gom cụm dữ liệu là quá trình phân chia tập dữ liệu ban đầu thành các cụm dữ liệu dựa trên độ tương tự hoặc độ không tương tự giữa các đối tượng trong tập dữ liệu.

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA: CÔNG NGHỆ THÔNG TIN BÀI TẬP LỚN MÔN: KHAI PHÁ DỮ LIỆU ĐỀ TÀI: NGHIÊN CỨU GIẢI THUẬT GOM CỤM CLARA VÀ ỨNG DỤNG TRONG GOM CỤM VĂN BẢN GVHD: Bùi Thanh Hùng LỚP: KTPM2 – K6 NHÓM: • Nguyễn Trường Sơn • Đỗ Văn Huy Hà Nội, Tháng 5/2015 LỜI CẢM ƠN Để hoàn thành đề tài này, chúng em xin được gửi lời cảm ơn tới những người bạn đã góp ý và giúp đỡ nhóm, và đặc biệt là cảm ơn thầy Bùi Thanh Hùng, người đã tận tình hướng dẫn và chỉ bảo chúng em xác định được những yêu cầu và mục tiêu đề tài, truyền dạy các kĩ năng cũng như hướng dẫn cho chúng em, từ phong cách báo cáo đến cách thức thực hiện đề tài. Với vốn kiến thức thu được trong quá trình thực hiện bài tập này, không chỉ là nền tảng cho quá trình nghiên cứu mà còn là hành trang quý báu để chúng bước vào cuộc sống một cách tự tin và vững chắc. Rất mong rằng thầy và các bạn vẫn tiếp tục đồng hành cùng nhóm chúng em và những lời góp ý và nhận xét nhiều hơn nữa để nhóm có thể tiếp tục hoàn thiện đề tài của mình ngày một tốt hơn. Một lần nữa chúng em kính chúc quý thầy cô dồi dào sức khỏe và thành công trong sự nghiệp trồng người cao quý. Trân trọng cảm ơn ! Nhóm thực hiện Nguyễn Trường Sơn Đỗ Văn Huy 2 MỤC LỤC 3 LỜI MỞ ĐẦU Với sự phát triển mạnh mẽ của công nghệ thông tin, dữ liệu trong đời sống, kinh tế, xã hội liên tục gia tăng đã cung cấp cho con người nhưng tri thức mới, kiến thức được phổ cập hơn đến với mọi người. Nhưng với sự gia tăng khối lượng kiến thức đến mức khổng lồ đã đặt ra một vấn đề cấp bách. Vấn đề đó là làm sao để trích lọc những thông tin quan trọng, cần thiết từ khối lượng dữ liệu khổng lồ và biến những thông tin kiến thức đó thành các tri thức để nâng cao việc phục vụ cho cuộc sống. Từ đó, ngành khám phá tri thức để phát triển để giải quyết vấn đề trên. Khám phá tri thức là một ngành bao hàm nhiều lĩnh vực liên quan đến lĩnh vực nghiên cứu và xử lý dữ liệu khối lượng lớn như: xác suất thống kê, máy học, tính toán song song… Chính vì điều này, chúng em đã chọn đề tài: “Tìm hiểu thuật toán gom cụm CLARA và ứng dụng trong gom cụm văn bản” Bố cục của BTL gồm 3 chương: ■ Chương 1: Tổng quan về khai phá dữ liệu Trình bày một cách tổng quan các kiến thức cơ bản về khai phá dữ liệu và khám phá tri thức. ■ Chương 2: Gom cụm dữ liệu. Giới thiệu một số kỹ thuật phân cụm dữ liệu phổ biến và thường được sử dụng trong lĩnh vực khai phá dữ liệu và khám phá tri thức. ■ Chương 3: Thuật toán CLARA và ứng dụng trong gom cụm văn bản Phần kết luận của luận văn tổng kết lại những vấn đề đã nghiên cứu, đánh giá kết quả nghiên cứu, hướng phát triển của đề tài. 4 CHƯƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1. Khai phá dữ liệu Cuối thập kỷ 80 của thế kỷ 20, sự phát triển rộng khắp của các Cơ sở dữ liệu đã tạo ra sự bùng nổ thông tin trên toàn cầu, vào thời gian này người ta bắt đầu đề cập đến khái niệm khủng hoảng trong việc phân tích dữ liệu tác nghiệp để cung cấp thông tin với yêu cầu chất lượng ngày càng cao cho người làm quyết định trong các tổ chức chính phủ, tài chính, thương mại, khoa học,… Đúng như John Naisbett đã cảnh báo “Chúng ta đang chìm ngập trong dữ liệu mà vẫn đói tri thức”. Lượng dữ liệu khổng lồ này thực sự là một nguồn tài nguyên có nhiều giá trị bởi thông tin là yếu tố then chốt phục vụ cho mọi hoạt động quản lý, kinh doanh, phát triển sản xuất và dịch vụ, … nó giúp người điều hành và quản lý có những hiểu biết về môi trường và tiến trình hoạt động của tổ chức mình trước khi ra quyết định để tác động đến quá trình hoạt động nhằm đạt được các mục tiêu một cách hiệu quả và bền vững. Khai phá dữ liệu là một lĩnh vực mới được nghiên cứu, nhằm tự động khai thác thông tin, tri thức mới hữu ích, tiềm ẩn từ những Cơ sở dữ liệu lớn cho các đơn vị, tổ chức, doanh nghiệp,…. từ đó làm thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh cho các đơn vị, tổ chức này. Các kết quả nghiên cứu khoa học cùng những ứng dụng thành công trong Khám phá tri thức cho thấy Khai phá dữ liệu là một lĩnh vực phát triển bền vững, mang lại nhiều lợi ích và có nhiều triển vọng, đồng thời có ưu thế hơn hẵn so với các công cụ tìm kiếm phân tích dữ liệu truyền thống. Hiện nay, Khai phá dữ liệu đã ứng dụng ngày càng rộng rãi trong các lĩnh vực như thương mại, tài chính, y học, viễn thông, tin – sinh,…. Các kỹ thuật chính được áp dụng trong lĩnh vực Khai phá dữ liệu phần lớn được thừa kế từ lĩnh vực Cơ sở dữ liệu, học máy, trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống kê và tính toán hiệu năng cao, Khám phá tri thức là mục tiêu chính của Khai phá dữ liệu, do vậy hai khái niệm Khai phá dữ liệu và Khám phá tri thức được các nhà khoa học trên hai lĩnh vực xem là tương đương với nhau. Thế nhưng nếu phân chia một cách chi tiết thì Khai phá dữ liệu là một bước chính trong quá trình Khám phá tri thức. 5 2. Quá trình khám phá tri thức Quá trình khá phá tri thức có thể chia thành 5 bước như sau: Đánh giá, biểu diễn Khai Tri phá thức Biến Tiền đổi Các mẫu xử lý Dữ liệu Trích biến đổi chọn Dữ liệu tiền xử lý Dữ liệu Dữ liệu lựa chọn thô Hình 1.1. Quá trình khám phá tri thức Quá trình Khai phá dữ liệu có thể phân thành các giai đoạn sau: Trích chọn dữ liệu: Đây là bước trích chọn những tập dữ liệu cần được khai phá từ các tập dữ liệu lớn ban đầu theo một số tiêu chí nhất định. Tiền xử lý dữ liệu: Đây là bước làm sạch dữ liệu (xử lý những dữ liệu không đầy đủ, nhiễu, không nhất quán, ), rút gọn dữ liệu (sử dụng hàm nhóm và tính tổng, các phương pháp nén dữ liệu, sử dụng histograms, lấy mẫu, ), rời rạc hóa dữ liệu (rời rạc hóa dựa vào histograms, dựa vào entropy, dựa vào phân khoảng, ). Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn và được rời rạc hóa. 6 Biến đổi dữ liệu: Đây là bước chuẩn hóa và làm mịn dữ liệu để đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ quá trình khai phá ở bước sau. Khai phá dữ liệu: Đây là bước áp dụng những kỹ thuật phân tích (như các kỹ thuật của học máy) nhằm để khai thác dữ liệu, trích chọn được những mẫu thông tin, những mối liên hệ đặc biệt trong dữ liệu. Đây được xem là bước quan trọng và tốn nhiều thời gian nhất của toàn quá trình Khám phá tri thức. Đánh giá và biểu diễn tri thức: Những mẫu thông tin và mối liên hệ trong dữ liệu đã được khám phá ở bước trên được biến đổi và biểu diễn ở một dạng gần gũi với người sử dụng như đồ thị, cây, bảng biểu, luật, Đồng thời bước này cũng đánh giá những tri thức khám phá được theo những tiêu chí nhất định. 3. Khai phá dữ liệu và các lĩnh vực liên quan Khai phá dữ liệu là một lĩnh vực liên quan tới thống kê, học máy, Cơ sở dữ liệu, thuật toán, tính toán song song, thu nhận tri thức từ hệ chuyên gia và dữ liệu trừu tượng. Đặc trưng của hệ thống khám phá tri thức là nhờ vào các phương pháp, thuật toán và kỹ thuật từ những lĩnh vực khác nhau để Khai phá dữ liệu. Lĩnh vực học máy và nhận dạng mẫu trong Khám phá tri thức nghiên cứu các lý thuyết và thuật toán của hệ thống để trích ra các mẫu và mô hình từ dữ liệu lớn. Khám phá tri thức tập trung vào việc mở rộng các lý thuyết và thuật toán cho các vấn đề tìm ra các mẫu đặc biệt (hữu ích hoặc có thể rút ra tri thức quan trọng) trong Cơ sở dữ liệu lớn. Ngoài ra, Khám phá tri thức có nhiều điểm chung với thống kê, đặc biệt là phân tích dữ liệu thăm dò (Exploratory Data Analysis - EDA). Hệ thống Khám phá tri thức thường gắn những thủ tục thống kê cho mô hình dữ liệu và tiến trình nhiễu trong khám phá tri thức nói chung. Một lĩnh vực liên quan khác là phân tích kho dữ liệu. Phương pháp phổ biến để phân tích kho dữ liệu là OLAP (On-Line Analytical Processing). Các công cụ OLAP tập trung vào phân tích dữ liệu đa chiều. 7 4. Các kỹ thuật áp dụng trong khai phá dữ liệu Khám phá tri thức là một lĩnh vực liên ngành, bao gồm: Tổ chức dữ liệu, học máy, trí tuệ nhân tạo và các khoa học khác. Sự kết hợp này có thể được diễn tả như sau: Các lĩnh vực khoa học khác Học máy và Tổ chức dữ liệu trí tuệ nhân tạo Hình 1.2. Các lĩnh vực liên quan đến khám phá tri thức trong CSDL Đứng trên quan điểm của học máy, thì các kỹ thuật trong Khai phá dữ liệu, bao gồm: Học có giám sát: Là quá trình gán nhãn lớp cho các phần tử trong Cơ sở dữ liệu dựa trên một tập các ví dụ huấn luyện và các thông tin về nhãn lớp đã biết. Học không có giám sát: Là quá trình phân chia một tập dữ liệu thành các lớp hay cụm dữ liệu tương tự nhau mà chưa biết trước các thông tin về lớp hay tập các ví dụ huấn luyện. Học nửa giám sát: Là quá trình phân chia một tập dữ liệu thành các lớp dựa trên một tập nhỏ các ví dụ huấn luyện và các thông tin về một số nhãn lớp đã biết trước. + Nếu căn cứ vào lớp các bài toán cần giải quyết, thì Khai phá dữ liệu bao gồm các kỹ thuật áp dụng sau: Phân lớp và dự báo: Xếp một đối tượng vào một trong những lớp đã biết trước. Ví dụ như phân lớp các dữ liệu bệnh nhân trong hồ sơ bệnh án. Hướng tiếp cận này thường sử dụng một số kỹ thuật của học máy như cây quyết định, mạng 8 nơron nhân tạo, Phân lớp và dự báo còn được gọi là học có giám sát. Luật kết hợp: Là dạng luật biểu diễn tri thức ở dạng khá đơn giản. Ví dụ: “60 % nữ giới vào siêu thị nếu mua phấn thì có tới 80% trong số họ sẽ mua thêm son”. Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin-sinh, tài chính và thị trường chứng khoán, Phân tích chuỗi theo thời gian: Tương tự như khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báo cao. Phân cụm: Xếp các đối tượng theo từng cụm dữ liệu tự nhiên. Phân cụm còn được gọi là học không có giám sát. Mô tả và tóm tắt khái niệm: Thiên về mô tả, tổng hợp và tóm tắt khái niệm, ví dụ như tóm tắt văn bản. Do Khai phá dữ liệu được ứng dụng rộng rãi nên nó có thể làm việc với rất nhiều kiểu dữ liệu khác nhau. Sau đây là một số dạng dữ liệu điển hình: Dữ liệu quan hệ, dữ liệu đa chiều, dữ liệu dạng giao dịch, dữ liệu quan hệ - hướng đối tượng, dữ liệu không gian và thời gian, dữ liệu chuỗi thời gian, dữ liệu đa phương tiện, dữ liệu văn bản và Web,… 5. Những chức năng chính của khai phá dữ liệu Hai mục tiêu chính của Khai phá dữ liệu là mô tả và dự báo. Dự báo là dùng một số biến hoặc trường trong Cơ sở dữ liệu để dự đoán ra các giá trị chưa biết hoặc sẽ có của các biến quan trọng khác. Việc mô tả tập trung vào tìm kiếm các mẫu mà con người có thể hiểu được để mô tả dữ liệu. Trong lĩnh vực Khám phá tri thức, mô tả được quan tâm nhiều hơn dự báo, nó ngược với các ứng dụng học máy và nhận dạng mẫu mà trong đó việc dự báo thường là mục tiêu chính. Trên cơ sở mục tiêu chính của Khai phá dữ liệu, các chức năng chính của Khám phá tri thức gồm: Mô tả lớp và khái niệm: Dữ liệu có thể được kết hợp trong lớp và khái niệm. Thí dụ, trong kho dữ liệu bán hàng thiết bị tin học, các lớp mặt hàng bao gồm máy tính, máy in,…và khái niệm khách hàng bao gồm khách hàng mua sỉ và khách mua lẻ. Việc mô tả lớp và khái niệm là rất hữu ích cho giai đoạn tổng hợp, 9 tóm lược và chính xác hoá. Mô tả lớp và khái niệm được bắt nguồn từ đặc trưng hoá dữ liệu và phân biệt dữ liệu. Đặc trưng hoá dữ liệu là quá trình tổng hợp những đặc tính hoặc các thành phần chung của một lớp dữ liệu mục tiêu. Phân biệt dữ liệu là so sánh lớp dữ liệu mục tiêu với những lớp dữ liệu đối chiếu khác. Lớp dữ liệu mục tiêu và các lớp đối chiếu là do người dùng chỉ ra và tương ứng với các đối tượng dữ liệu nhận được nhờ truy vấn. Phân tích sự kết hợp: Phân tích sự kết hợp là khám phá các luật kết hợp thể hiện mối quan hệ giữa các thuộc tính giá trị mà ta nhận biết được nhờ tần suất xuất hiện cùng nhau của chúng. Các luật kết hợp có dạng X Þ Y , tức là A 1 Ù Ù A n Þ B 1 Ù Ù B m , trong đó A i (i=1, , n) và B j (j=1, ,m) là các cặp thuộc tính giá trị. Luật kết hợp dạng X Þ Y có thể được hiểu là “dữ liệu thoã mãn các điều kiện của X thì cũng sẽ thoả các điều kiện của Y”. Phân lớp và dự báo: Phân lớp là quá trình tìm kiếm một tập các mô hình hoặc chức năng mà nó mô tả và phân biệt nó với các lớp hoặc khái niệm khác. Các mô hình này nhằm mục đích dự báo về lớp của một số đối tượng. Việc xây dựng mô hình dựa trên sự phân tích một tập các dữ liệu được huấn luyện có nhiều dạng thể hiện mô hình như luật phân lớp (IF-THEN), cây quyết định, công thức toán học hay mạng nơron, Sự phân lớp được sử dụng để dự đoán nhãn lớp của các đối tượng trong dữ liệu. Tuy nhiên trong nhiều ứng dụng, người ta mong muốn dự đoán những giá trị khuyết thiếu nào đó. Thông thường đó là trường hợp dự đoán các giá trị của dữ liệu kiểu số. Trước khi phân lớp và dự báo, có thể cần thực hiện phân tích thích hợp để xác định và loại bỏ các thuộc tính không tham gia vào quá trình phân lớp và dự báo. Phân cụm: Không giống như phân lớp và dự báo, phân cụm phân tích các đối tượng dữ liệu khi chưa biết nhãn của lớp. Nhìn chung, nhãn lớp không tồn tại trong suốt quá trình huấn luyện dữ liệu, nó phân cụm có thể được sử dụng để đưa ra nhãn của lớp. Sự phân cụm thực hiện nhóm các đối tượng dữ liệu theo nguyên tắc: Các đối tượng trong cùng một nhóm thì giống nhau hơn các đối tượng khác nhóm. Mỗi cụm được tạo thành có thể được xem như một lớp các đối tượng mà các luật được lấy ra từ đó. Dạng của cụm được hình thành theo một cấu trúc phân cấp của các lớp mà mỗi lớp là một nhóm các sự kiện tương tự nhau. Phân tích các đối tượng ngoài cuộc: Một Cơ sở dữ liệu có thể chứa các đối tượng không tuân theo mô hình dữ liệu. Các đối tượng như vậy gọi là đối tượng 10 [...]... nhờ vào tập mẫu huấn luyện Tóm lại, các phương pháp gom cụm dữ liệu đã được áp dụng rộng rãi trong thực tế Như trong thương mại, gom cụm sẽ cho phép các công ty tìm kiếm ra được các nhóm khác hàng Trong sinh học – hóa học, gom cụm dữ liệu cho phép thành lập các nhóm gene, cấu trúc hóa học tương tự để trù bị các biến đổi, tương tác với nhau 19 CHƯƠNG 3 THUẬT TOÁN CLARA VÀ ỨNG DỤNG TRONG GOM CỤM VĂN BẢN... liệu văn bản 3.2.1 Dữ liệu văn bản Trong các loại dữ liệu hiện nay thì văn bản là loại dữ liệu phổ biến nhất và nó có mặt khắp mọi nơi, đặc biệt là đối với dữ liệu trên Web Do vậy, các bài toán xử lý văn bản đã được đặt ra từ rất sớm và hiện nay nó vẫn là vấn đề rất được nhiều nhà nghiên cứu quan tâm, một trong những bài toán đó là tìm kiếm và trích dẫn văn bản, biểu diễn và phân loại văn bản, … CSDL văn. .. thuật toán phân cụm phân hoạch bao gồm các thuật toán đề xuất đầu tiên trong lĩnh vực Khai phá dữ liệu cũng là các thuật toán được áp dụng nhiều trong thực tế như k-means, PAM, CLARA, CLARANS Sau đây là một số thuật toán kinh điển được kế thừa sử dụng rộng rãi - Gom cụm dữ liệu phân cấp Gom cụm dữ liệu phân cấp là sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng hình cây Cây gom cụm có thể được... lại (tiÏ 0 dj) Trong đó, n là tổng số văn bản trong CSDL, hi là số văn bản chứa thuật ngữ ti Trọng số wij trong công thức trên được tính dựa vào độ quan trọng của thuật ngữ ti trong tài liệu dj Nếu ti xuất hiện càng ít trong các văn bản thì nó càng quan trọng, do đó nếu ti xuất hiện trong dj thì trọng số của nó càng lớn, nghĩa là nó càng quan trọng để phân biệt dj với các tài liệu khác và lượng thông... những vấn đề liên quan, kỹ thuật phân cụm dữ liệu và đi sâu vào một số phương pháp phân cụm truyền thống, phổ biến như phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa trên mật độ, phân cụm dựa trên lưới, phân cụm dựa trên mô hình và theo hướng tiếp cận mờ Mặc dù đã cố gắng, nỗ lực hết mình song do thời gian nghiên cứu, trình độ của các thành viên có hạn và điều kiện nghiên cứu còn nhiều hạn chế nên... HTML, Email, 3.2.2 Một số vấn đề trong xử lý dữ liệu văn bản Mỗi văn bản được biểu diễn bằng một vector Boolean hoặc vector số Những vector này được xét trong một không gian đa chiều, trong đó mỗi chiều tương ứng với một từ mục riêng biệt trong tập văn bản Mỗi thành phần của vector được gán một hàm giá trị f, nó là một số chỉ mật độ tương ứng của chiều đó trong văn bản Nếu thay đổi giá trị hàm f ta... sẽ trình bày một số mô hình phổ biến và được đăng nhiều trong các bài báo gần đây Trong các bài toán xử lý văn bản, ta thấy rằng vai trò của biểu diễn văn bản rất lớn, đặc biệt trong các bài toán tìm kiếm, phân cụm, … Theo các nghiên cứu về cách biểu diễn khác nhau trong xử lý văn bản thì cách biểu diễn tốt nhất là bằng các từ riêng biệt được rút ra từ tài liệu gốc và cách 24 biểu diễn này ảnh hưởng tương... khác Việc sử dụng từ gốc làm giảm đáng kể số lượng các từ trong văn bản (giảm số chiều của không gian), nhưng việc cắt bỏ các từ lại rất khó trong việc hiểu văn bản Ngoài ra, để nâng cao chất lượng xử lý, một số công trình nghiên cứu đã đưa ra một số cải tiến thuật toán xem xét đến đặc tính ngữ cảnh của các từ bằng việc sử dụng các cụm từ /văn phạm chứ không chỉ xét các từ riêng lẽ Những cụm từ này có... liệu tích hợp trong cả MS-Word, MS-Excel, 11 CHƯƠNG 2 GOM CỤM DỮ LIỆU 1 Khái quát về gom cụm dữ liệu Gom cụm dữ liệu là một phương pháp trong khai phá dữ liệu dùng để tìm kiếm, phát hiện các cụm, các mẫu dữ liệu ẩn và quan trọng trong tập dữ liệu lớn để từ đó cung cấp thông tin, tri thức cho việc ra quyết định Thực tế hơn, gom cụm dữ liệu là quá trình phân chia tập dữ liệu ban đầu thành các cụm dữ liệu... khởi tạo tương ứng với các cụm riêng biệt Qua mỗi bước, tiến hành gom nhóm các đối tượng theo một phép đo tương tự (khoảng cách) thành một nhóm lớn hơn Quá trình kết thúc khi tất cả các nhóm được gom vào thành một nhóm duy nhất hoặc gặp phải điều kiện kết thúc Trong thực tế, 2 phương pháp gom cụm dữ liệu phân cấp và gom cụm dữ liệu phân hoạch thường được sử dụng của với nhau Kết quả của gom cụm phân hoạch . chọn đề tài: “Tìm hiểu thuật toán gom cụm CLARA và ứng dụng trong gom cụm văn bản” Bố cục của BTL gồm 3 chương: ■ Chương 1: Tổng quan về khai phá dữ liệu Trình bày một cách tổng quan các kiến

Ngày đăng: 08/05/2015, 00:11

TỪ KHÓA LIÊN QUAN

w