Báo cáo kỹ thuật text mining và ứng dụng

Nội dung Giới thiệu  Data Mining  Text Mining  SQL Server Integration Services SSIS  Phân loại văn bản  Ứng dụng phân loại thư... Giới thiệu Trong hệ thống các dạng Data Mining th

Trang 1

Kỹ thuật Text Mining và ứng dụng

Khoa: CNTT

Trang 2

Nội dung

 Giới thiệu

 Data Mining

 Text Mining

 SQL Server Integration Services (SSIS)

 Phân loại văn bản

 Ứng dụng phân loại thư

Trang 3

Giới thiệu

 Trong hệ thống các dạng Data Mining thì có một kiểu khai

phá dữ liệu rất đặc biệt chỉ thực hiện trên các dữ liệu định dạng Text đó là Text Mining Trong thời điểm hiện nay, phân tích các tài liệu dạng Text trở nên rất quan trọng

 Và các dự án Textmining thực sự là một công cụ hổ trợ đắc

lực trong việc phân nhóm, phân loại và phân đoạn các dữ liệu không cấu trúc này nhằm thực hiện các vấn đề thiết thực trong cuộc sống cũng như hoạt động kinh doanh thương mại

 SQL 2005, Data Mining nói chung và Text Mining nói riêng

thực sự đã trở thành các công cụ xây dựng các ứng dụng thông minh, hổ trợ đắc lực và thiết thực cho mọi người trong việc giải quyết các vấn đề thực tế

Trang 4

Data Mining

1. Giới thiệu

2. Các bài toán của Data Mining trong kinh doanh

3. Nhiệm vụ của Data Mining

4. Kỹ thuật Data Mining

5. Các thuật toán Data Mining

Trang 5

Data Mining

Giới thiệu

1 Data Minning là một bộ phận quan trọng trong gia đình sản phẩm của kinh tế tri thức Business Intelligence (BI), với xữ lý phân tích thông tin trên mạng Online Analytical Processing (OLAP), cùng với báo cáo kinh doanh và ETL (Extraction Transformation Loading)

2 Data Mining là phân tích dữ liệu và tự động tìm các phần mẫu còn ẩn hoặc các tiềm lực chung quan trọng, có ý nghĩa thực tế trong việc giải quyết một vấn đề thực tế

3 Trong suốt hàng thập kỹ qua các dữ liệu đã làm giàu thêm và đã được lưu trữ trong các cơ sở dữ liệu lớn Phần lớn những dòng dữ liệu đó

là từ các phần mềm thương mại như là các ứng dụng về tài chính,viễn thông, quản lý nguồn dự án (ERP), quản lý liên hệ khách hàng (CRM),

và các trang Web trợ giúp Và kết quả của quá trình kết hợp dữ liệu đó

là một tổ chức giàu dữ liệu và nghèo tri thức

4 Mục đích chính của Data Mining là khai phá các vấn đề từ các nguồn

dữ liệu có sẵn, tăng giá trị bên trong của nó, và chuyển nó thành tri thức

Trang 7

Data Mining

Các bài toán của Data Mining

trong kinh doanh

1 Phân tích thị trường

2 Trao đổi mua bán

3 Phát hiện gian lận trong kinh doanh

4 Quản lý rủi ro trong kinh doanh

Trang 9

Thuật toán DATA MINING

Neural Net

Đã được giới thiệu trong SQL Server 2000

Logistic Regression

Linear

Regression

Text Mining

Trang 10

Text Mining

 Khái niệm và vị trí của Text Mining

 Nhiệm vụ của Data Mining

 Thuật toán hỗ trợ và các bước tiến hành

Trang 11

TexT Mining

Khái niệm

Text mining là một sự chuyên môn hóa và mở rộng của Data Mining, một dạng của khai phá tri thức (knowledge discovery)

Vị trí quan trọng của Text Mining

1 Quản lý nội dung, quản lý tri thức, và phân phối nội dung

2 Enterprise, Desktop, và Web Search

3 Business Intelligence

4 Visualization

5 Ứng dụng kinh doanh

Trang 12

Text Mining

Thuật toán hỗ trợ và các bước tiến hành

Kỹ thuật Text Mining được hỗ trợ hầu hết các thuật toán mà ta đã giới thiệu trong phần Data Mining

Trang 13

SQL Server Integration Services (SSIS)

Trang 14

Thuật tốn Nạve Bayes và phân loại văn bản

 Sự cần thiết của phân loại văn bản

 Định nghĩa và tiến trình phân loại văn bản

 Thuật tốn phân loại văn bản Nạve Bayes

Trang 15

Sự cần thiết phân loại văn bản

1 Thứ nhất: Những thơng tin hữu ích ngày càng nhiều và ngày càng

cĩ sẵn trên mạng Đặc biệt trên WWW cĩ thể truy cập một số lượng lớn các thơng tin và phân phối các thơng tin đĩ cho mọi người (đây

là một lợi ích to lớn)

2 Thứ hai: Để phù hợp với sự phát triển như vũ bão của thơng tin thì việc lưu trữ “ở dạng số” các thơng tin văn bản đang dẫn đến việc quá tải thơng tin Mặt khác, lượng thơng tin cĩ sẵn và sự gia tăng này lớn hơn rất nhiều so với khả năng mà con người cĩ thể tìm ra những thơng tin cĩ liên quan mà họ cần (đây là khĩ khăn lớn).

Việc bùng nổ thơng tin đã làm cho vấn đề tổ chức, quản lí, phân loại thơng tin ngày càng cĩ vai trị quan trọng Chẳng hạn khi tìm kiếm thơng tin trên Internet, chương trình tìm kiếm phải lục sốt tất cả các tài nguyên sẵn cĩ trên mạng sau đĩ tiến hành lọc thơng tin để đưa ra những thơng tin cần thiết cho người dùng

Trang 16

Định nghĩa và tiến trình phân loại văn bản

Định nghĩa: Phân loại văn bản là sự phân loại khơng cấu trúc các tài

liệu văn bản dựa trên một tập hợp của một hay nhiều loại văn bản đã được định nghĩa trước Quá trình này thường được thực thi bằng một hệ thống tự động gán cho các tài liệu văn bản một loại nào đĩ

Tiến trình phân loại văn bản

• Lựa chọn các đặc trưng văn bản

• Biểu diễn văn bản

• Học một bộ phân loại văn bản

• Tiến hành phân loại văn bản

Trang 17

Thuật tốn phân loại văn bản Nạve Bayes

Xác suất P(c k |d i ) gọi là xác suất mà tài liệu d i cĩ khả năng thuộc vào lớp văn bản c k được tính tốn như sau:

) (

)

| (

* )

( )

|

(

i

k i

k

d P

c d

P c

P d

)

| (

* )

( max

)

| (

max

1

d of

i

k i k

N k

i

k N

c d P c

P d

Trang 18

Với mỗi văn bản D (document), người ta sẽ tính cho mỗi loại một xác suất mà tài liệu D cĩ thể thuộc vào lớp tài liệu đĩ bằng việc sử dụng luật Nạve Bayes:

Trong đĩ: D là tài liệu cần phân loại, C i là một tài liệu bất kì Theo giả định của Naive Bayes xác suất của mỗi từ trong tài liệu D là độc lập với ngữ cảnh xuất hiện các từ đồng thời cũng độc lập với vị trí của các từ trong tài liệu

) (

)

| (

* )

( )

|

(

D P

C D

P C

P D

C

Trang 19

Xác suất P(D|C i ) được tính tốn từ tần suất xuất hiện của các từ đơn w j

(word) trong tài liệu D:

)

| P(w )

C

|

P(D

l j 1

j là tổng số từ w trong tài liệu D:

Như vậy biểu thức (1) cĩ thể được viết lại như sau:

)

|

P(w )

(

)

( )

|

(

l j 1

i

D P

C

P D

Trang 20

1. Xây dựng từ điển thuật ngữ

2. Xây dựng một bảng Vectors thuật ngữ

3. Xây dựng mô hình SSIS chuẩn bị Train/Test Samples

4. Xây dựng mô hình Data Mining

5. Xây dựng các bảng dữ liệu đặc trưng

6. Xây dựng ứng dụng phân loại thư yêu cầu

Trang 21

Phản hồi

Phân loại tự động

Trang 22

Phương pháp giải quyết yêu cầu ứng dụng

 Phương pháp giải quyết ứng dụng

1 Tạo từ điển trích rút các thuật ngữ thơng qua nội dung các bài báo và lưu vào

trong bảng Dictionnary trong CSDL SQL 2005 bằng Term Extraction transformation

2 Tạo bảng cấu trúc các thuật ngữ dựa vào việc tham chiếu dữ liệu các thuật ngữ

trong bảng Dictionnary và trường nội dung bài báo trong bảng dữ liệu ba n đầu và lưu vào bảng TermVectors với 3 cột là thuật ngữ, ID và tần số xuất hiện

3 Thực hiện chuẩn bị mẫu cho mơ hình mining bằng Percentage Sampling

transform và lưu vào 2 bảng là TrainArticles và TestArticles Bước này là bước chuẩn bị cuối cùng cho mơ hình Data Mining sẽ xây dựng TrainArticles dùng

để huấn luyện mơ hình, và TestArticles để thực hiện kiểm tra mơ hình

4 Thực hiện xây dựng mơ hình Data Mining dựa vào các dữ liệu đã chuẩn bị ở

trên Sử dụng ba thuật tốn là Cây quyết định, Nạve Bayes và Neural Network

5 Xây dựng các bảng đặc trưng văn bản theo từng nhĩm dựa vào đầu ra của

bước 4

6 Xây dựng chương trình ứng dụng phân loại văn bản bằng thuật tốn Nạve

Bayes

Trang 23

Chuẩn bị dữ liệu Text Mining bằng SSIS

Trang 24

Xây dựng mô hình Data Text Mining

Trang 25

Xây dựng ứng dụng phân loại thư yêu cầu

Mail (n) Thuật tốn phân

loại văn bản Nạve

Bayes

NewsGroup

Trang 26

Nguyên tắc tính các xác suất trong bằng thuật tốn Nạve Bayes:

- Giả sử nội dung của mỗi thư điện tử là: content

- Lớp phân loại kí hiệu là: NewsGroup

- Các lớp ngồi lớp trên kí hiệu là: AllOthers

- Xác suất để một thư điện tử thuoc nhom: P(NewsGroup|content)

- Word 1, word 2, word 3…word m là các từ đặc trưng xuất hiện trong content

Ta cĩ:

     

Total

NewsGroup P

NewsGroup content

P content

NewsGroup

Trang 27

i NewsGroup word

P NewsGroup

i AllOthers word

P AllOthers

Trang 28

Trang 29

Trang 30

Kết luận

 Kết quả đạt được

1. Nắm vững chu trình một dự án Text Data Mining

2. Phương pháp giải quyết yêu cầu phân loại thư khá tối ưu,

độ chính xác cao: trên 80%

 Tồn tại

1. Chưa xây dựng được ứng dụng trên tiếng Việt

2. Thuật tốn Nạve Bayes chưa thực hiện phân loại tối đa các

thư yêu cầu

 Hướng phát triển

1. Xây dựng được ứng dụng trên tiếng Việt

2. Áp dụng các thuật tốn khác để cĩ độ chính xác phân loại

tốt hơn

Trang 31

Xin chân thành cảm ơn!

Định dạng
Số trang	31
Dung lượng	1,93 MB