Nội dung Giới thiệu Data Mining Text Mining SQL Server Integration Services SSIS Phân loại văn bản Ứng dụng phân loại thư... Giới thiệu Trong hệ thống các dạng Data Mining th
Trang 1Kỹ thuật Text Mining và ứng dụng
Khoa: CNTT
© 2009 HVKTQS Corporation All rights reserved
Trang 2Nội dung
Giới thiệu
Data Mining
Text Mining
SQL Server Integration Services (SSIS)
Phân loại văn bản
Ứng dụng phân loại thư
Trang 3Giới thiệu
Trong hệ thống các dạng Data Mining thì có một kiểu khai
phá dữ liệu rất đặc biệt chỉ thực hiện trên các dữ liệu định dạng Text đó là Text Mining Trong thời điểm hiện nay, phân tích các tài liệu dạng Text trở nên rất quan trọng
Và các dự án Textmining thực sự là một công cụ hổ trợ đắc
lực trong việc phân nhóm, phân loại và phân đoạn các dữ liệu không cấu trúc này nhằm thực hiện các vấn đề thiết thực trong cuộc sống cũng như hoạt động kinh doanh thương mại
SQL 2005, Data Mining nói chung và Text Mining nói riêng
thực sự đã trở thành các công cụ xây dựng các ứng dụng thông minh, hổ trợ đắc lực và thiết thực cho mọi người trong việc giải quyết các vấn đề thực tế
Trang 4Data Mining
1. Giới thiệu
2. Các bài toán của Data Mining trong kinh doanh
3. Nhiệm vụ của Data Mining
4. Kỹ thuật Data Mining
5. Các thuật toán Data Mining
Trang 5Data Mining
Giới thiệu
1 Data Minning là một bộ phận quan trọng trong gia đình sản phẩm của kinh tế tri thức Business Intelligence (BI), với xữ lý phân tích thông tin trên mạng Online Analytical Processing (OLAP), cùng với báo cáo kinh doanh và ETL (Extraction Transformation Loading)
2 Data Mining là phân tích dữ liệu và tự động tìm các phần mẫu còn ẩn hoặc các tiềm lực chung quan trọng, có ý nghĩa thực tế trong việc giải quyết một vấn đề thực tế
3 Trong suốt hàng thập kỹ qua các dữ liệu đã làm giàu thêm và đã được lưu trữ trong các cơ sở dữ liệu lớn Phần lớn những dòng dữ liệu đó
là từ các phần mềm thương mại như là các ứng dụng về tài chính,viễn thông, quản lý nguồn dự án (ERP), quản lý liên hệ khách hàng (CRM),
và các trang Web trợ giúp Và kết quả của quá trình kết hợp dữ liệu đó
là một tổ chức giàu dữ liệu và nghèo tri thức
4 Mục đích chính của Data Mining là khai phá các vấn đề từ các nguồn
dữ liệu có sẵn, tăng giá trị bên trong của nó, và chuyển nó thành tri thức
Trang 7Data Mining
Các bài toán của Data Mining
trong kinh doanh
1 Phân tích thị trường
2 Trao đổi mua bán
3 Phát hiện gian lận trong kinh doanh
4 Quản lý rủi ro trong kinh doanh
Trang 9Thuật toán DATA MINING
Neural Net
Đã được giới thiệu trong SQL Server 2000
Logistic Regression
Linear
Regression
Text Mining
Trang 10Text Mining
Khái niệm và vị trí của Text Mining
Nhiệm vụ của Data Mining
Thuật toán hỗ trợ và các bước tiến hành
Trang 11TexT Mining
Khái niệm
Text mining là một sự chuyên môn hóa và mở rộng của Data Mining, một dạng của khai phá tri thức (knowledge discovery)
Vị trí quan trọng của Text Mining
1 Quản lý nội dung, quản lý tri thức, và phân phối nội dung
2 Enterprise, Desktop, và Web Search
3 Business Intelligence
4 Visualization
5 Ứng dụng kinh doanh
Trang 12Text Mining
Thuật toán hỗ trợ và các bước tiến hành
Kỹ thuật Text Mining được hỗ trợ hầu hết các thuật toán mà ta đã giới thiệu trong phần Data Mining
Trang 13SQL Server Integration Services (SSIS)
Trang 14Thuật tốn Nạve Bayes và phân loại văn bản
Sự cần thiết của phân loại văn bản
Định nghĩa và tiến trình phân loại văn bản
Thuật tốn phân loại văn bản Nạve Bayes
Trang 15Thuật tốn Nạve Bayes và phân loại văn bản
Sự cần thiết phân loại văn bản
1 Thứ nhất: Những thơng tin hữu ích ngày càng nhiều và ngày càng
cĩ sẵn trên mạng Đặc biệt trên WWW cĩ thể truy cập một số lượng lớn các thơng tin và phân phối các thơng tin đĩ cho mọi người (đây
là một lợi ích to lớn)
2 Thứ hai: Để phù hợp với sự phát triển như vũ bão của thơng tin thì việc lưu trữ “ở dạng số” các thơng tin văn bản đang dẫn đến việc quá tải thơng tin Mặt khác, lượng thơng tin cĩ sẵn và sự gia tăng này lớn hơn rất nhiều so với khả năng mà con người cĩ thể tìm ra những thơng tin cĩ liên quan mà họ cần (đây là khĩ khăn lớn).
Việc bùng nổ thơng tin đã làm cho vấn đề tổ chức, quản lí, phân loại thơng tin ngày càng cĩ vai trị quan trọng Chẳng hạn khi tìm kiếm thơng tin trên Internet, chương trình tìm kiếm phải lục sốt tất cả các tài nguyên sẵn cĩ trên mạng sau đĩ tiến hành lọc thơng tin để đưa ra những thơng tin cần thiết cho người dùng
Trang 16Thuật tốn Nạve Bayes và phân loại văn bản
Định nghĩa và tiến trình phân loại văn bản
Định nghĩa: Phân loại văn bản là sự phân loại khơng cấu trúc các tài
liệu văn bản dựa trên một tập hợp của một hay nhiều loại văn bản đã được định nghĩa trước Quá trình này thường được thực thi bằng một hệ thống tự động gán cho các tài liệu văn bản một loại nào đĩ
Tiến trình phân loại văn bản
• Lựa chọn các đặc trưng văn bản
• Biểu diễn văn bản
• Học một bộ phân loại văn bản
• Tiến hành phân loại văn bản
Trang 17Thuật tốn Nạve Bayes và phân loại văn bản
Thuật tốn phân loại văn bản Nạve Bayes
Xác suất P(c k |d i ) gọi là xác suất mà tài liệu d i cĩ khả năng thuộc vào lớp văn bản c k được tính tốn như sau:
) (
)
| (
* )
( )
|
(
i
k i
k i
k
d P
c d
P c
P d
)
| (
* )
( max
)
| (
max
1
1
d of
i
k i k
N k
i
k N
c d P c
P d
Trang 18Thuật tốn Nạve Bayes và phân loại văn bản
Thuật tốn phân loại văn bản Nạve Bayes
Với mỗi văn bản D (document), người ta sẽ tính cho mỗi loại một xác suất mà tài liệu D cĩ thể thuộc vào lớp tài liệu đĩ bằng việc sử dụng luật Nạve Bayes:
Trong đĩ: D là tài liệu cần phân loại, C i là một tài liệu bất kì Theo giả định của Naive Bayes xác suất của mỗi từ trong tài liệu D là độc lập với ngữ cảnh xuất hiện các từ đồng thời cũng độc lập với vị trí của các từ trong tài liệu
) (
)
| (
* )
( )
|
(
D P
C D
P C
P D
C
Trang 19Thuật tốn Nạve Bayes và phân loại văn bản
Thuật tốn phân loại văn bản Nạve Bayes
Xác suất P(D|C i ) được tính tốn từ tần suất xuất hiện của các từ đơn w j
(word) trong tài liệu D:
)
| P(w )
C
|
P(D
l j 1
j là tổng số từ w trong tài liệu D:
Như vậy biểu thức (1) cĩ thể được viết lại như sau:
)
|
P(w )
(
)
( )
|
(
l j 1
i
D P
C
P D
Trang 201. Xây dựng từ điển thuật ngữ
2. Xây dựng một bảng Vectors thuật ngữ
3. Xây dựng mô hình SSIS chuẩn bị Train/Test Samples
4. Xây dựng mô hình Data Mining
5. Xây dựng các bảng dữ liệu đặc trưng
6. Xây dựng ứng dụng phân loại thư yêu cầu
Trang 21Phản hồi
Phân loại tự động
Trang 22Phương pháp giải quyết yêu cầu ứng dụng
Phương pháp giải quyết ứng dụng
1 Tạo từ điển trích rút các thuật ngữ thơng qua nội dung các bài báo và lưu vào
trong bảng Dictionnary trong CSDL SQL 2005 bằng Term Extraction transformation
2 Tạo bảng cấu trúc các thuật ngữ dựa vào việc tham chiếu dữ liệu các thuật ngữ
trong bảng Dictionnary và trường nội dung bài báo trong bảng dữ liệu ba n đầu và lưu vào bảng TermVectors với 3 cột là thuật ngữ, ID và tần số xuất hiện
3 Thực hiện chuẩn bị mẫu cho mơ hình mining bằng Percentage Sampling
transform và lưu vào 2 bảng là TrainArticles và TestArticles Bước này là bước chuẩn bị cuối cùng cho mơ hình Data Mining sẽ xây dựng TrainArticles dùng
để huấn luyện mơ hình, và TestArticles để thực hiện kiểm tra mơ hình
4 Thực hiện xây dựng mơ hình Data Mining dựa vào các dữ liệu đã chuẩn bị ở
trên Sử dụng ba thuật tốn là Cây quyết định, Nạve Bayes và Neural Network
5 Xây dựng các bảng đặc trưng văn bản theo từng nhĩm dựa vào đầu ra của
bước 4
6 Xây dựng chương trình ứng dụng phân loại văn bản bằng thuật tốn Nạve
Bayes
Trang 23Chuẩn bị dữ liệu Text Mining bằng SSIS
Trang 24Xây dựng mô hình Data Text Mining
Trang 25Xây dựng ứng dụng phân loại thư yêu cầu
Mail (n) Thuật tốn phân
loại văn bản Nạve
Bayes
NewsGroup
Trang 26Xây dựng ứng dụng phân loại thư yêu cầu
Nguyên tắc tính các xác suất trong bằng thuật tốn Nạve Bayes:
- Giả sử nội dung của mỗi thư điện tử là: content
- Lớp phân loại kí hiệu là: NewsGroup
- Các lớp ngồi lớp trên kí hiệu là: AllOthers
- Xác suất để một thư điện tử thuoc nhom: P(NewsGroup|content)
- Word 1, word 2, word 3…word m là các từ đặc trưng xuất hiện trong content
Ta cĩ:
Total
NewsGroup P
NewsGroup content
P content
NewsGroup
Trang 27Xây dựng ứng dụng phân loại thư yêu cầu
i NewsGroup word
P NewsGroup
i AllOthers word
P AllOthers
Trang 28Xây dựng ứng dụng phân loại thư yêu cầu
Trang 29Xây dựng ứng dụng phân loại thư yêu cầu
Trang 30Kết luận
Kết quả đạt được
1. Nắm vững chu trình một dự án Text Data Mining
2. Phương pháp giải quyết yêu cầu phân loại thư khá tối ưu,
độ chính xác cao: trên 80%
Tồn tại
1. Chưa xây dựng được ứng dụng trên tiếng Việt
2. Thuật tốn Nạve Bayes chưa thực hiện phân loại tối đa các
thư yêu cầu
Hướng phát triển
1. Xây dựng được ứng dụng trên tiếng Việt
2. Áp dụng các thuật tốn khác để cĩ độ chính xác phân loại
tốt hơn
Trang 31Xin chân thành cảm ơn!