Kỹ thuật Text Mining và ứng dụng GVHD : Khoa: CNTT © 2009 HVKTQS Corporation. All rights reserved Nội dung Giới thiệu Data Mining Text Mining SQL Server Integration Services (SSIS) Phân loại văn bản Ứng dụng phân loại thư Giới thiệu Trong hệ thống các dạng Data Mining thì có một kiểu khai phá dữ liệu rất đặc biệt chỉ thực hiện trên các dữ liệu định dạng Text đó là Text Mining. Trong thời điểm hiện nay, phân tích các tài liệu dạng Text trở nên rất quan trọng. Và các dự án Textmining thực sự là một công cụ hổ trợ đắc lực trong việc phân nhóm, phân loại và phân đoạn các dữ liệu không cấu trúc này nhằm thực hiện các vấn đề thiết thực trong cuộc sống cũng như hoạt động kinh doanh thương mại. SQL 2005, Data Mining nói chung và Text Mining nói riêng thực sự đã trở thành các công cụ xây dựng các ứng dụng thông minh, hổ trợ đắc lực và thiết thực cho mọi người trong việc giải quyết các vấn đề thực tế. Data Mining 1. Giới thiệu 2. Các bài toán của Data Mining trong kinh doanh 3. Nhiệm vụ của Data Mining 4. Kỹ thuật Data Mining 5. Các thuật toán Data Mining Data Mining Giới thiệu 1. Data Minning là một bộ phận quan trọng trong gia đình sản phẩm của kinh tế tri thức Business Intelligence (BI), với xữ lý phân tích thông tin trên mạng Online Analytical Processing (OLAP), cùng với báo cáo kinh doanh và ETL (Extraction Transformation Loading). 2. Data Mining là phân tích dữ liệu và tự động tìm các phần mẫu còn ẩn hoặc các tiềm lực chung quan trọng, có ý nghĩa thực tế trong việc giải quyết một vấn đề thực tế. 3. Trong suốt hàng thập kỹ qua các dữ liệu đã làm giàu thêm và đã được lưu trữ trong các cơ sở dữ liệu lớn. Phần lớn những dòng dữ liệu đó là từ các phần mềm thương mại như là các ứng dụng về tài chính,viễn thông, quản lý nguồn dự án (ERP), quản lý liên hệ khách hàng (CRM), và các trang Web trợ giúp. Và kết quả của quá trình kết hợp dữ liệu đó là một tổ chức giàu dữ liệu và nghèo tri thức. 4. Mục đích chính của Data Mining là khai phá các vấn đề từ các nguồn dữ liệu có sẵn, tăng giá trị bên trong của nó, và chuyển nó thành tri thức. Data Mining Giới thiệu Dưới đây là lý do chúng ta quan tâm đến Data Mining: • Một số lượng lớn dữ liệu sẵn dùng • Sự cạnh tranh ngày càng tăng • Sẳn sàng về mặt công nghệ Data Mining Các bài toán của Data Mining trong kinh doanh 1. Phân tích thị trường 2. Trao đổi mua bán 3. Phát hiện gian lận trong kinh doanh 4. Quản lý rủi ro trong kinh doanh 5. Phân loại khách hàng 6. Mục đích quảng cáo 7. Dự báo thị trường Nhiệm vụ của Data Mining 1. Phép phân loại 2. Kỹ thuật Clustering (phân cụm) 3. Luật kết hợp 4. Hồi quy 5. Dự báo 6. Phép phân tích 7. Phân tích độ lệch Trợ giúp tất cả các nhân Trợ giúp tất cả các nhân viên kinh doanh đưa ra viên kinh doanh đưa ra những quyết định xác đáng, những quyết định xác đáng, nhanh chóng và hiệu quả nhanh chóng và hiệu quả nhất. nhất. Huấn luyện mô hình và đưa ra kết Huấn luyện mô hình và đưa ra kết quả nhận định quả nhận định Khởi tạo các mô hình DATA MINING Khởi tạo các mô hình DATA MINING và sử dụng các thuật toán thích hợp và sử dụng các thuật toán thích hợp Chuẩn bị dữ liệu đúng định dạng, Chuẩn bị dữ liệu đúng định dạng, đúng thông tin và thời kỳ thực hiện đúng thông tin và thời kỳ thực hiện Tầm nhìn chiến lược cho hoạt động kinh doanh Kỹ thuật Data Mining Thuật toán DATA MINING Decision Decision Trees Trees Clustering Clustering Time Series Time Series Sequence Sequence Clustering Clustering Association Association Naïve Naïve Bayes Bayes Neural Net Neural Net Đã được giới thiệu trong SQL Server 2000 Đã được giới thiệu trong SQL Server 2000 Logistic Logistic Regression Regression Linear Regression Linear Regression Text Mining Text Mining Khái niệm và vị trí của Text Mining Nhiệm vụ của Data Mining Thuật toán hỗ trợ và các bước tiến hành [...].. .TexT Mining Khái niệm Text mining là một sự chuyên môn hóa và mở rộng của Data Mining, một dạng của khai phá tri thức (knowledge discovery) Vị trí quan trọng của Text Mining 1 Quản lý nội dung, quản lý tri thức, và phân phối nội dung 2 Enterprise, Desktop, và Web Search 3 Business Intelligence 4 Visualization 5 Ứng dụng kinh doanh Text Mining Thuật toán hỗ trợ và các bước tiến hành Kỹ thuật Text Mining. .. Yêu cầu ứng dụng Phương pháp giải quyết yêu cầu ứng dụng 2 Xây dựng ứng dụng 1 Xây dựng từ điển thuật ngữ Xây dựng một bảng Vectors thuật ngữ Xây dựng mô hình SSIS chuẩn bị Train/Test Samples Xây dựng mô hình Data Mining Xây dựng các bảng dữ liệu đặc trưng Xây dựng ứng dụng phân loại thư yêu cầu 2 3 4 5 6 Yêu cầu ứng dụng Phương pháp giải quyết yêu cầu ứng dụng Phương pháp giải quyết ứng dụng 1... các thuật ngữ thông qua nội dung các bài báo và lưu vào trong bảng Dictionnary trong CSDL SQL 2005 bằng Term Extraction transformation Tạo bảng cấu trúc các thuật ngữ dựa vào việc tham chiếu dữ liệu các thuật ngữ trong bảng Dictionnary và trường nội dung bài báo trong bảng dữ liệu ba n đầu và lưu vào bảng TermVectors với 3 cột là thuật ngữ, ID và tần số xuất hiện Thực hiện chuẩn bị mẫu cho mô hình mining. .. dựng các bảng đặc trưng văn bản theo từng nhóm dựa vào đầu ra của bước 4 Xây dựng chương trình ứng dụng phân loại văn bản bằng thuật toán Naïve Bayes 2 3 4 5 6 Chuẩn bị dữ liệu Text Mining bằng SSIS Xây dựng mô hình Data Text Mining Xây dựng ứng dụng phân loại thư yêu cầu Xây dựng ứng dụng phân loại thư yêu cầu Nguyên tắc tính các xác suất trong bằng thuật toán Naïve Bayes: - Giả sử nội dung của mỗi... Percentage Sampling transform và lưu vào 2 bảng là TrainArticles và TestArticles Bước này là bước chuẩn bị cuối cùng cho mô hình Data Mining sẽ xây dựng TrainArticles dùng để huấn luyện mô hình, và TestArticles để thực hiện kiểm tra mô hình Thực hiện xây dựng mô hình Data Mining dựa vào các dữ liệu đã chuẩn bị ở trên Sử dụng ba thuật toán là Cây quyết định, Naïve Bayes và Neural Network Xây dựng các... hết các thuật toán mà ta đã giới thiệu trong phần Data Mining SQL Server Integration Services (SSIS) Thuật toán Naïve Bayes và phân loại văn bản Sự cần thiết của phân loại văn bản Định nghĩa và tiến trình phân loại văn bản Thuật toán phân loại văn bản Naïve Bayes Thuật toán Naïve Bayes và phân loại văn bản Sự cần thiết phân loại văn bản 1 Thứ nhất: Những thông tin hữu ích ngày càng nhiều và ngày... liệu Thuật toán Naïve Bayes và phân loại văn bản Thuật toán phân loại văn bản Naïve Bayes Xác suất P(D|Ci) được tính toán từ tần suất xuất hiện của các từ đơn wj (word) trong tài liệu D: P(D | C i ) = ∏P(w j | Ci ) 1< j . Regression Linear Regression Text Mining Text Mining Khái niệm và vị trí của Text Mining Nhiệm vụ của Data Mining Thuật toán hỗ trợ và các bước tiến hành TexT Mining Khái niệm Text mining là một sự. (2) Ứng dụng Text Mining Giới thiệu ứng dụng 1. Yêu cầu ứng dụng 2. Phương pháp giải quyết yêu cầu ứng dụng Xây dựng ứng dụng 1. Xây dựng từ điển thuật ngữ 2. Xây dựng một bảng Vectors thuật. Desktop, và Web Search 3. Business Intelligence 4. Visualization 5. Ứng dụng kinh doanh Text Mining Thuật toán hỗ trợ và các bước tiến hành Kỹ thuật Text Mining được hỗ trợ hầu hết các thuật