Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thị

Cách tiếp cận của chúng ta dựa trên cơ sở các cấu trúc đại diệnhoặc các mẫu đợc rút ra từ các th điện tử mẫu đã đợc phân loại và sau đó có thể sử dụng để phân loại các th điện tử nhậ

Trang 1

Trờng đại học bách khoa hà nội

-

luận văn thạc sĩ khoa học

Phân loại th điện tử bằng kỹ thuật khai phá dựa trên đồ thị

ngành: công nghệ thông tin

hoàng trọng vinh

Ngời hớng dẫn khoa học: PGS TS Nguyễn Thanh Thuỷ

hà nội 2005

Trang 2

Mục lục

Danh mục các chữ viết tắt 3

Danh mục các hình vẽ, đồ thị 4

Mở đầu 5

Chơng I - tổng quan 7

I.1 Khai phá dữ liệu dạng văn bản: 8

I.2 Một số khái niệm cơ bản trong xử lý văn bản: 9

I.2.1 Từ khoá, thuật ngữ và khái niệm: 9

I.2.2 Từ dừng (Stop words): 10

I.2.3 Trọng số của thuật ngữ: 10

I.2.4 Độ liên quan giữa các văn bản: 11

I.3 Các bài toán cơ bản trong xử lý văn bản: 11

I.3.1 Tìm kiếm văn bản (Text Retrieval): 11

I.3.2 Phân loại văn bản (Text Classification): 12

I.3.3 Phân nhóm văn bản (Text Clustering): 13

I.3.4 Tóm tắt văn bản (Text Summarization) 13

I.3.5 Dẫn đờng văn bản (Text Routing): 14

I.4 Phơng pháp biểu diễn văn bản theo mô hình không gian vector: 15 I.4.1 Mô hình Boolean: 16

I.4.2 Mô hình Tần số: 17

I.4.3 Phơng pháp xử lý vector tha: 18

I.5 Phân loại Văn bản: 19

I.6 Phân loại th điện tử: 20

I.6.1 Các khó khăn, thách thức đặt ra: 21

I.6.2 Trình bày quan điểm và phơng pháp tiếp cận: 23

Chơng II các kỹ thuật phân loại truyền thống - 25

2.1 Kỹ thuật Phân loại Văn bản: 25

2.1.1 Thuật toán Support Vector Machines (SVMs): 25

2.1.2 Thuật toán cây quyết định (Decision Tree): 27

2.1.3 Thuật toán k-NN (k - Nearest neighbor): 31

2.1.4 Phơng pháp Bayes đơn giản hoá: 34

2.2 Kỹ thuật Phân loại th điện tử: 35

2.2.1 Sự phân loại dựa trên các qui tắc: 35

2.2.2 Sự phân loại dựa trên cơ sở sự phục hồi thông tin: 36

2.2.3 Phân loại theo kỹ thuật học máy: 36

Chơng III kỹ thuật khai phá dựa trên đồ thị - 38

3.1 Tổng quan: 39

3.2 Hệ thống phát hiện cấu trúc con SUBDUE: 42

3.2.1 Phát hiện cấu trúc con: 44

Trang 3

3.2.2 Nén đồ thị: 47

3.2.3 Đối sánh đồ thị tơng đối: 48

3.2.4 Tham số cho luồng điều khiển: 48

Chơng 4 - Hệ thống phân loại th điện tử 52

4.1 Tổng quan: 52

4.1.1 Tiền xử lý (Folder Pre-processing): 53

4.1.2 Biểu diễn Đồ thị (Graph Representation): 54

4.1.3 Trích xuất cấu trúc con (substructure extraction): 54

4.1.4 Lợc bỏ cấu trúc con đại diện (Representative Substructure Pruning): 54

4.1.5 Xếp loại cấu trúc con đại diện (Representative Substructure Ranking): 55

4.1.6 Xử lý th điện tử đầu vào (Processing Input Email): 55

4.1.7 Sự Phân loại (Classification): 55

4.2 Quá trình tiền xử lý (Pre-processing): 55

4.2.1 Các đặc trng của tiếng Việt: 56

4.2.2 Phân tách từ trong tiếng Việt dựa vào từ điển: 59

4.2.3 Lựa chọn mẫu cho đồ thị đầu vào: 60

4.3 Biểu diễn Đồ thị (Graph Representation): 62

4.4 Tác động của đặc trng lớp (Impact of Folder Characteristics): 64

4.4.1 Kích thớc trung bình th điện tử và giá trị ngỡng (Average email Size and Threshold) 65

4.4.2 Kích thớc trung bình của th điện tử và folder so với số cấu trúc con (Average email Size & Folder Size Vs Number of Substructures) 66

4.4.3 Kích thớc chùm tia (Beam Size) 67

4.4.4 Kích thớc cấu trúc con tối thiểu (Substructure Size VsMinsize) 67

4.4.5 Lợc bỏ cấu trúc con và xếp hạng (Substructure Pruning and Ranking) 67

4 5 hân loại (Classification) 68 P 4.6 Kết quả cài đặt và thử nghiệm: 69

kết luận và hớng phát triển tiếp theo 75

5.1 Kết luận: 75

5.2 Hớng phát triển của luận văn: 75

Tài liệu tham khảo 77

Trang 4

Danh mục các chữ viết tắt

STT Chữ viết tắt Viết đầy đủ

3 k-NN k Nearest neighbor

-4 MDL Minimum Description Length Principle

5 SVMs Support Vector Machines

Trang 5

Danh mục các hình vẽ, đồ thị

Hình 1 1 Chức năng truy vấn của trang web www.google.com.vn

Hình 1 2 Chức năng dẫn đờng văn bản trong trang web www.vnn.vn

Hình 2.1 Siêu phẳng phân chia các mẫu

Hình 2.2 Minh hoạ việc khoanh vùng k văn bản gần nhất với k = 5

Hình 3.1 Cấu trúc đồ thị ban đầu

Hình 3.2 Mở rộng các cấu trúc con theo tất cả các cách có thể

Hình 3.3 Nén đồ thị bằng các cấu trúc con tìm đợc

Hình 3.4 Các cấu trúc con tìm đợc bằng cách mở rộng cấu trúc con (a)

Hình 3.5 Sử dụng đồ thị con G’c để nén đồ thị đầu vào G

Hình 3.6 Tệp đầu vào có nội dung là danh sách các đỉnh và các cạnh tơng ứng giữa chúng

Hình 3.7 Biểu diễn đồ thị đầu vào trong hệ thống SubDue

Hình 3.8 Đồ thị con tốt nhất nhận đợc ở đầu ra của hệ thống

Hình 3.9 Tham số ở đầu ra của hệ thống SubDue

Hình 3.10 Cấu trúc con tốt nhất nhận đợc ở đầu ra của hệ thống SubDue Hình 3.11 Biểu diễn đồ thị con tốt nhất ở đầura hệ thống SubDue

Hình 4.1 Hệ thống phân loại th điện tử

Hình 4.2 Các biểu diễn đồ thị

Hình 4.3 Tệp đồ thị đầu vào

Hình 4.4 Một th điện tử tiếng Việt

Hình 4.5 Nguồn từ điển tiếng Việt sử dụng trong chơng trình

Hình 4.6 Tệp các đồ thị đầu vào

Hình 4.7 Kết quả đầu ra của hệ thống phát hiện cấu trúc đồ thị con

Hình 4.8 Một th điện tử tiếng Việt không dấu

Trang 6

Mở đầu

Sự phát triển vợt bậc của công nghệ thông tin – truyền thông nói chung và Internet nói riêng dẫn đến khả năng chia sẻ, trao đổi thông tin một cách nhanh chóng, chính xác Với lợng thông tin, tri thức khổng lồ nhận

đợc từ Internet nói chung và th điện tử (Email nói ) riêng, con ngời ta không thể xử lý chúng bằng phơng pháp thủ công một cách có hiệu quả Từ

đó nảy sinh nhu cầu về xử lý thông tin văn bản một cách tự động

Trên thế giới đã có rất nhiều thành công trong lĩnh vực nghiên cứu xử lý văn bản nói chung và trong th điện tử nói riêng trong các phòng thí nghiệm hay trong các viện nghiên cứu của các trờng đại học ở Mỹ, Pháp, Nhật Bản, Canada, Tuy nhiên các thành công đó chủ yếu tập trung vào vấn đề nghiên cứu văn bản, th điện tử tiếng Anh, tiếng Pháp là những ngôn ngữ tơng đối

đơn giản khi xử lý Trong khi đó, rất ít công cụ đã đợc xây dựng thực sự thành công trong lĩnh vực xử lý văn bản, th điện tử tiếng Việt Ngày nay, việc trao đổi thông tin, tri thức tiếng Việt qua Web, th điện tử là một nhu cầu tất yếu không thể thiếu đợc, nhu cầu nghiên cứu và xây dựng các công cụ khai phá văn bản tiếng Việt nói chung và th điện tử nói riêng đang đợc hết sức coi trọng

Phân loại văn bản là một lĩnh vực nghiên cứu nhằm phân loại các tài liệu theo các lớp đợc định nghĩa trớc Các lớp đợc định nghĩa dựa vào một tập các tài liệu mẫu đã đợc phân loại, đợc sử dụng để huấn luyện Các kỹ thuật đợc sử dụng có thể là các phơng pháp truyền thống nh học máy (Machine Learning), thống kê (Statistics), Các phơng pháp này cũng có thể ứng dụng để phân loại th điện tử và các trang web Hầu hết các phơng pháp này đều rút ra các từ khoá hoặc những từ thờng xuyên xuất hiện mà không để ý đến sự liên quan giữa các từ Sự liên quan giữa chúng rất quan trọng, nó có thể chỉ ra sự liên quan giữa các tài liệu bên trong một lớp Các hệ

Trang 7

thống phân loại xác định các mẫu khác nhau nhằm phân loại các tài liệu tơng

tự

Luận văn này đề cập đến một phơng pháp phân loại mới dựa trên kỹ thuật đồ thị Cách tiếp cận của chúng ta dựa trên cơ sở các cấu trúc đại diệnhoặc các mẫu đợc rút ra từ các th điện tử mẫu đã đợc phân loại và sau đó

có thể sử dụng để phân loại các th điện tử nhận đợc sau này Trong cách tiếp cận này, khái niệm đối sánh đồ thị tơng đối có tác dụng đa ra các cấu trúc có khả năng mô tả đặc điểm nội dung của một lớp th điện tử Khả năng phân loại dựa trên sự tơng tự và không hoàn toàn chính xác là rất quan trọng trong sự phân loại, giống nh không bao giờ có hai mẫu hoàn toàn giống nhau ý tởng mới này có thể áp dụng để phân loại không những văn bản mà còn rộng rãi hơn nữa

Dới sự định hớng và hớng dẫn tận tình của thầy PGS TS Nguyễn

Thanh Thuỷ, tôi chọn bài toán xử lý cụ thể đặt ra trong luận văn này là Phân loại th điện tử bằng kỹ thuật khai phá dựa trên đồ thị

Trang 8

Chơng I tổng quan -

Việc quản lý dữ liệu và thông tin đã đợc quan tâm với nhu cầu nhằm rút những yếu tố thiết yếu và quan trọng của một tài liệu và lu giữ nó để có thể sự dụng một cách có hiệu quả sau này Sự cần thiết này giống nh danh mục của các quyển sách trong th viện, nó giúp nhanh chóng tìm ra quyển ta sách mà ta đang quan tâm Trong một quyển sách, mục lục để ta dễ dàng xác

định đợc mục ta cần Internet chứa đựng một lợng thông tin khổng lồ Việc xác định cái gì là cần thiết cho ta là rất quan trọng, nó giúp ta quản lý các thông tin một cách có hiệu quả và lu trữ chúng để có thể sử dụng sau này.Quản lý thông tin ngày nay có một ý nghĩa to lớn giống nh công nghệ thông tin đã làm một cuộc cách mạng trong dữ liệu và tri thức là chia sẻ thông tin giữa mọi ngời trên phạm vi toàn cầu Một khối lợng thông tin khổng lồ ngay lập tức có thể nhận đợc thông qua việc truy cập nternet Cần có một cơ Ichế nhằm xác định thông tin nào là thích hợp cần phải truy cập Một cách đơn giản nhất là ta có thể lọc thông tin dựa vào sự có mặt hoặc không có mặt của một số từ khoá nhất định Trong những trờng hợp khác có thể xác định thêm ngữ cảnh, thời điểm xuất hiện để có thể lọc ra những thông tin phù hợp với thời điểm Ví dụ, nếu cần rút ra tất cả các thông tin về ngôn ngữ Java mà chỉ cung cấp từ khoá “Java” thì rất có thể trong kết quả đa ra có nhiều thông tin không thích hợp Vấn đề là ta phải tìm cách cung cấp thông tin bổ ung để xác s

định cái nào là thích hợp Trong một trờng hợp khác, quản lý thông tin có thể phức tạp nh việc tóm tắt thông tin Một cơ chế khác cho quản lý thông tin là

sự phân loại, điều này cho phép ta phân loại thông tin thành các phạm trù khác nhau tuỳ thuộc vào sự quan tâm của ngời dùng

Trang 9

I.1 khai phá dữ liệu dạng văn bản:

Khai phá dữ liệu văn bản là một lĩnh vực nghiên cứu về các phơng thức xử lý, tìm kiếm thông tin trong những kho thông tin đợc lu trữ bằng văn bản Trong các dạng dữ liệu thờng xuyên đợc sử dụng thì văn bản là một trong những dạng đợc dùng phổ biến nhất Văn bản có mặt ở mọi nơi và thờng xuyên hàng ngày Văn bản có thể là các bài báo cáo, các tài liệu kinh doanh, các thông tin kinh tế, các bài nghiên cứu khoa học, Dù việc áp dụng cơ sở dữ liệu vào hoạt động quản lý của các tổ chức là rất phổ biến và mang lại nhiều lợi ích trong lu trữ cũng nh trong xử lý, nhng trên thực tế còn rất nhiều thông tin khác đợc lu trữ dới dạng văn bản Do đó, các bài toán xử lý văn bản đã đợc đặt ra từ khá lâu và cho đến nay vẫn là một bài toán quan trọng trong khai phá dữ liệu

Dữ liệu văn bản thờng đợc chia thành hai loại:

- Dạng phi cấu trúc (unstructured): là loại văn bản chúng ta sử dụng hàng ngày đợc thể hiện dới dạng ngôn ngữ tự nhiên của con ngời và không có một cấu trúc định dạng cụ thể nào Ví dụ: các văn bản lu dới dạng tệp tin của Microsoft Word

- Dạng bán cấu trúc (semi structured): là loại văn bản không - đợc lu trữ dới dạng các bản ghi chặt chẽ mà đợc tổ chức qua các thẻ đánh dấu để thể hiện nội dung chính của văn bản Ví dụ: Th điện tử, dạng tệp tin HTML,

Tuỳ từng mục đích sử dụng cụ thể mà việc xử lý văn bản đợc thực hiện trên dạng cấu trúc nào Ví dụ, với bài toán phân loại nội dung trang web thì dạng văn bản cần xử lý là HTML

Khai phá dữ liệu văn bản (text mining) đợc định nghĩa là quá trình tìm kiếm tri thức trong những tập hợp bao gồm rất nhiều văn bản có nội dung đa dạng và đợc thu thập từ nhiều nguồn khác nhau Khai phá dữ liệu văn bản là một lĩnh vực nghiên cứu rất rộng và bao hàm nhiều lĩnh vực con

Trang 10

I.2 Một số khái niệm cơ bản trong xử lý văn bản:

Trong xử lý văn bản nói chung và th điện tử nói riêng có sử dụng một

số thuật ngữ cần đợc làm rõ để tiện cho việc sử dụng sau này

I.2 1 Từ khoá, thuật ngữ và khái niệm :

* Từ khoá (keyword): là các từ xuất hiện trong một văn bản ở dạng nguyên thể, có nghĩa trong từ điển Ví dụ với câu sau: “Chương trỡnh khuyến mại tặng miễn phớ modem ADSL tổ chức song song đồng thời với chương trỡnh khuyếnmại tặng 30% cước hoà mạng + 20% giỏ thiết bị modemđầu cuối , các từ ”khoá có thể đợc tách ra là “Chương trỡnh”, “khuyến mại”, “miễn phớ”

“modem”, “ADSL”, “ tổ chức”, “song song “đồng thời”, “30%”, “cước ”, hoàmạng”, “20% giỏ”, “ ”, “thiết bị”, “đầu cuối”

* Thuật ngữ (term): là các từ khoá có nghĩa liên quan đến một lĩnh vực nào

đó, ví dụ: "chuyển tiền nhanh", "tem th", "điện thoại" Các thuật ngữ này thuộc về lĩnh vực "Bu điện"

* Khái niệm (concept): Là các thuật ngữ nhng nó là sự khái quát hoá, tổng quát hoá của nhiều thuật ngữ khác Ví dụ: khái niệm "máy tính" có thể chứa

"tin học" nhiều hơn so với thuật ngữ "số hoá" Một tiêu chuẩn để xem xét mức

độ liên quan là xác xuất đồng xuất hiện của cặp khái niệm thuật ngữ trong - các văn bản Khi thuật ngữ "máy tính" xuất hiện nhiều trong các văn bản chứa thuật ngữ "tin học" thì có nghĩa là độ liên quan giữa cặp "tin học" - "máy tính" càng cao Một lý do để giải thích suy luận này là mức độ thay thế ở đây, không chỉ hiểu đơn thuần giống nh sự thay thế 1 1 giữa hai từ (ví dụ: "loài -

Trang 11

ngời" - "nhân loại") mà có thể xem nh giữa cặp khái niệm thuật ngữ có sự - thay thế bộ ph n (ví dụ: "máy ậ tính" - "bàn phím").

I.2 2 Từ dừng (Stop words) :

Có thể quan sát thấy rằng trong các ngôn ngữ tự nhiên, rất nhiều từ

đợc dùng để biểu diễn cấu trúc câu nhng hầu nh không mang ý nghĩa về mặt nội dung, chẳng hạn các loại từ: giới từ, liên từ, Các loại từ này xuất hiện thờng xuyên trong các văn bản nhng không hề mang bất cứ một thông tin nào về nội dung hay chủ đề của văn bản Những từ đó dợc gọi là từ dừng (Stop words) Việc loại bỏ các từ nh vậy cũng đồng nghĩa với việc giảm số chiều của văn bản

Khái niệm Từ dừng (Stop word) là các từ mang ít ý nghĩa trong xử lý văn bản vì nó xuất hiện trong hầu hết các văn bản Ví dụ: ó thể, nếu, vì vậy, csau khi, thì, một số, với lại, quả thật, hầu nh,…

Có một số phơng pháp để xác định các từ dừng:

- Xây dựng một thuật toán phát hiện các từ dừng Trong thuật toán này cần đa ra một ngỡng để phát hiện từ dừng Ví dụ nếu phát hiện thấy , một từ 1 xuất hiện trong quá 50% số văn bản có thể coi đó là từ dừng.,

- Sử dụng so sánh với một từ điển từ dừng đã đợc xây dựng trớc

I.2.3 Trọng số của thuật ngữ:

Trọng số của thuật ngữ là độ quan trọng hay hàm lợng không tin mà thuật ngữ đó mang lại cho văn bản Nó là đại lợng dùng để đo sự khác biệt giữa văn bản chứa nó với các văn bản khác Đại lợng này thờng đợc xác

định bằng tay hoặc đánh giá bằng số lần xuất hiện của thuật ngữ trong văn bản

và số lần xuất hiện của thuật ngữ đó trong các văn bản khác Khi số lần xuất hiện của thuật ngữ trong văn bản càng nhiều thông tin nó mang lại càng lớn , Khi số lần xuất hiện của nó trong các văn bản khác càng nhiều thông tin nó , mang lại càng ít

Trang 12

I.2.4 Độ liên quan giữa các văn bản:

Độ liên quan gi a hai văn bản là một đại lợng ữ đo mức độ giống nhau

về một nội dung giữa hai ăn bản ó Các phơng pháp đánh giá độ liên quan v đchia thành hai loại:

- Đánh giá theo tần suất xuất hiện thuật ngữ

- Đánh giá theo ngữ nghĩa

Cách đánh giá độ liên quan theo tần suất xuất hiện thuật ngữ thì không quan tâm đến thứ tự sắp xếp của các thuật ngữ trong văn bản mà chỉ quan tâm

đến số lần nó xuất hiện trong văn bản đó Ví dụ: Phơng pháp sử dụng hệ số Dice, hệ số Jaccard, hệ số consine,

ố Cách đánh giá theo ngữ nghĩa không chỉ chú ý đến s lần xuất hiện thuật ngữ trong văn bản mà còn chú ý cả đến sự kết cấu giữa các từ trong từng câu văn Phơng pháp đánh giá thuộc loại này thờng phức tạp hơn, yêu cầu

có các giải thuật phù hợp với từng ngôn ngữ cụ thể

I.3 Các bài toán cơ bản trong xử lý văn bản:

Lewis đã chia ra một số bài toán cơ bản trong xử lý văn bản, bao gồm: bài toán tìm kiếm văn bản (Text Retrieval), bài toán phân loại văn bản (Text Classification), bài toán phân nhóm văn bản (Text Clustering), bài toán định tuyến văn bản (Text Routing), bài toán tóm tắt văn bản (Text Summarization)

I.3.1 Tìm kiếm văn bản (Text Retrieval):

Tìm kiếm văn bản là quá trình tìm các văn bản tr ng một kho lu trữ otheo các yêu cầu của ngời dùng ở đây, các yêu cầu là các truy vấn và thờng đợc biểu diễn dới dạng thuật ngữ hay biểu thức logic giữa các thuật ngữ

Ví dụ: truy vấn: “th điện tử“ AND (“rác“ OR “spam“) ứng với

truy vấn này search engine của hệ thống sẽ tìm tất cả các tài liệu về “th

Trang 13

điện tử“ có liên quan đến “rác“ hoặc “spam“ Trên thực tế thì hầu hết các

hệ thống chỉ đợc thiết kế để hiểu các truy vấn tơng tự nh th điện tử“ ” OR

“rác” OR “spam” Với câu truy vấn này hệ thống sẽ tìm kiếm các tài liệu theo

mức phù hợp với cả ba thuật ngữ “ th điện tử , “rác“, “spam“ “ Kết quả

đầu ra của một phép truy vấn là danh sách các tài liệu đợc sắp xếp giảm dần theo mức độ phù hợp với câu truy vấn đầu vào

Hình 1 1 Chức năng truy vấn của trang web www.google.com.vn

I.3 2 Phân loại văn bản (Text Classification):

Phân loại văn bản đợc coi nh quá trình gán các văn bản vào một hay nhiều lớp văn bản đã đợc xác định trớc dựa trên nội dung của văn bản đó Ngời ta có thể phân loại các văn bản một cách thủ công, tức là đọc tìm văn bản và gán nó vào một lớp nào đó, cách này sẽ tốn rất nhiều thời gian và công sức khi số lợng văn bản lớn nên không khả t i Do vậy cần phải có các hphơng pháp phân loại tự động Để phân loại tự động ngời ta thờng sử dụng các phơng pháp học áy trong trí tuệ nhân tạo Khi phân loại, văn bản đợc m

Trang 14

gán vào một lớp theo một giá trị ngỡng nào đó Ngỡng đặt ra tùy thuộc vào thuật toán và yêu cầu ngời dùng

I.3 3 Phân nhóm văn bản (Text Clustering):

Phân nhóm văn bản là việc tự động sinh ra các nhóm văn bản dựa vào

sự tơng tự về nội dung của các văn bản Số lợng các nhóm văn bản ở đây là cha biết trớc, chẳng hạn số nhóm có thể là 2, 3, 5, Ngời dùng có thể chỉ

ra số lợng các nhóm cần phân nhóm hoặc hệ thống sẽ tự phân nhóm

Đối với bài toán này, không bao giờ có một kết quả thỏa mãn hoàn toàn theo ý ngời dùng Một lý do đơn giản để giải thích là máy không đợc học trớc Chúng ta phải thừa nhận rằng ngay cả con ngời cũng giải quyết bài toán này không giống nhau Ví dụ: lập nhóm các từ "thầy giáo", "diễn viên",

"phấn viết", "vở kịch"; một ngời sẽ lập thành 2 nhóm là: con ngời ("thầy giáo", "diễn viên" và sự vật ("phấn viết", "vở kịch", trong khi đó ngời khác lại phân chúng thành 2 nhóm khác: giáo dục( thầy giáo“ ” “, phấn viết”) và văn hóa ("diễn viên", "vở kịch") Do đó, việc đòi hỏi hệ thống tự động lập nhóm làm việc đúng tuyệt đối là điều không tởng

I.3 .4 Tóm tắt văn bản (Text Summarization)

Tóm tắt văn bản là bài toán tìm ra thể hiện nội dung của một văn bản thông qua một vài đoạn văn ng dụng điển hình của bài toán này là trong tìm ứkiếm văn bản Các kho lu trữ bao gồm rất nhiều tài liệu và kích thớc mỗi tài liệu có thể lên đến vài trăm trang Giả sử khi bạn đọc muốn tìm một tài liệu về

"Text Mining" và nhờ hệ thống tìm kiếm văn bản tìm giúp, hệ thống tìm kiếm

sẽ đa ra một danh sách các tài liệu với nội dung tơng đối phù hợp với "Text Mining" Nhng để viết thực sự tài liệu đó có phù hợp với mình hay không, bạn đọc đành phải đọc toàn bộ hoặc đọc một phần trong tài liệu Hệ thống tóm tắt văn bản sẽ làm cho việc tìm kiếm giảm nhẹ đi rất nhiều bằng cách tự động tóm lợc nội dung của toàn bộ văn bản bởi một vài đoạn văn bản Sau khi đọc qua đoạn tóm lợc này, bạn đọc có thể biết đợc đây có phải là tài liệu chứa

Trang 15

thông tin mà họ đang cần hay không

I.3.5 Dẫn đờng văn bản (Text Routing):

Dẫn đờng văn bản là sự tổ hợp giữa bài toán tìm kiếm văn bản và phân lớp, nhóm văn bản Giống nh phân loại, nhóm văn bản, bài toán dẫn đờng cũng đa các văn bản về các lớp, nhóm khác nhau và việc xử lý này yêu cầu trong thời gian thực Tuy nhiên, nó cũng giống nh bài toán tìm kiếm ở chỗmỗi lớp, nhóm văn bản đợc gán với các thông tin cần thiết của một hay nhiều nhóm: ngời dùng Mỗi ngời dùng có thể thay đổi thêm bớt các yêu cầu của mình Quá trình phản hồi có thể đợc sử dụng để nâng cao chất lợng tìm kiếm văn bản

Một ứng dụng điển hình của bài toán dẫn đờng văn bản là trong các trang tin điện tử Khi đọc một tin mới, hệ thống sẽ đa ra danh sách các tin khác có liên quan đến nội dung đoạn tin đang đọc (hình 1.2)

Ngời dùng có thể theo các thông tin dẫn đờng này để theo dõi toàn

bộ diễn biến của sự kiện

Trang 16

I.4 Phơng pháp biểu diễn văn bản theo mô hình không gian vector:

Phần này sẽ trình bày về một số phơng pháp biểu diễn văn bản thông dụng, trong đó đặc biệt chú ý đến phơng pháp biểu diễn văn bản theo mô hình không gian vector tần suất TF x IDF, đây là mô hình thờng đợc sử dụng trong phân loại th điện tử

Phơng pháp biểu diễn văn bản theo mô hình không gian vector là cáchbiểu diễn văn bản thông dụng nhất Đây là một cách biểu diễn tơng đối đơn giản Trớc đây có một số nghiên cứu nhận thấy phơng pháp này gây tốn kém chi phí lu giữ và công sức xử lý, nhng khi các phơng pháp xử lý vector tha đợc áp dụng thì các ợc nh điểm trên giảm đi rất nhiều và mang lại hiệu quả cho bài toán đặt ra

Bản chất của mô hình không gian vector:

Mỗi văn bản đợc biểu diễn thành một vector

Mỗi thành phần của vector là một từ khóa riêng biệt trong tập văn bản

gốc và đợc gán một giá trị là hàm f của từng từ khóa trong văn bản

Ta hãy xét ví dụ: "Mạng máy tính là một lập hợp các máy tính đợc nối với nhau bởi các đờng truyền vật lý theo một ki n trúc nào đó" Có thể biểu ếdiễn văn bản trên dới dạng các từ khóa và hàm f biểu diễn số lần xuất hiện

của từ khoá trong văn bản (bảng 1 l) Cách biểu diễn này gọi là biểu diễn văn

bản theo tần số xuất hiện

Trang 17

Bảng 1.1 Văn bản biểu diễn theo từ khoá và tần số xuất hiện

Từ khoá Tần số xuất hiện

Một mô hình biểu diễn vector với hàm cho ra giá trị rời rạc với duy f

nhất hai giá trị đúng và sai (true và fale, hoặc 0 và l) gọi là mô hình Boolean Hàm tơng ứng với thuật ngữ f t i sẽ cho ra giá trị úng nếu và chỉ nếu thuật đ

ngữ t i xuất hiện trong văn bản đó

Mô hình Boolean đợc định nghĩa nh sau:

Giả sử có một cơ sở dữ liệu gồm m văn bản, D = {d1, d2, dm} Mỗi văn bản đợc biểu diễn dạng một vector gồm n thuật ngữ T = {t1, t2, … tn} Gọi W

= {wij} là ma trận trọng số, trong đó wij là giá trị trọng số của thuật ngữ ti

trong văn bản dj, Mô hình Boolean là mô hình đơn giản nhất đợc xác định nh sau:

wij = 1 nếu ti có mặt trong di

Trang 18

I.4.2 Mô hình Tần số:

Trong mô hình tần số, ma trận W = {wij} đợc xác định dựa trên tần số xuất hiện của thuật ngữ ti trong văn bản dj hoặc tần số xuất hiện của thuật ngữ

ti trong toàn bộ cơ sở dữ liệu

Có ba phơng pháp:

- Phơng pháp dựa trên tần số thuật ngữ TF (Term Frequency)

- Phơng pháp dựa trên nghịch đảo tần số văn bản IDF (Inverse Document Frequency)

- Phơng pháp TF x LDF: kết hợp của phơng pháp TF và IDF

* Phơng pháp dựa trên tần số thuật ngữ TF (Term Frequency)

Các giá trị wij đợc tính dựa trên tần số xuất hiện của thuật ngữ trong văn bản Gọi fij là số lần xuất hiện của thuật ngữ ti trong văn bản dj khi đó wij

đợc tính bởi một trong ba công thức sau:

Ví dụ: khi văn bản xuất hiện nhiều thuật ngữ máy tính, điều đó có nghĩa

là văn bản đang xét chủ yêu liên quan đến lĩnh vực tin học

* Phơng pháp dựa trên nghịch đảo tần số văn bản IDF (Inverse Document frequency)

Trong phơng pháp này, giá trị wij đợc tính theo công thức sau:

Trang 19

wij = log log( ) log( i )

i

h m

hi là số văn bản mà thuật ngữ ti xuất hiện

Trọng số wij trong công thức này đợc tính dựa trên độ quan trọng của thuật ngữ trong văn bản dj Nếu ti xuất hiện trong càng ít văn bản, điều đó có nghĩa là nếu nó xuất hiện trong dj trọng số của nó đối với văn bản dj càng lớn hay nó là điểm quan trọng để phân biệt văn bản dj với các văn bản khác và hàm lợng thông tin trong nó càng lớn Ví dụ: các thuật ngữ "tiền đạo", "hậu

vệ ", "thủ môn" chỉ xuất hiện trong các bài báo nói về lĩnh vực bóng đá Nh vậy, hàm lợng thông tin về bóng đá chứa đựng trong các thuật ngữ trên là rất lớn

i

ij h

m

f log log

và độ hiếm của thuật ngữ ti trong toàn bộ cơ sở dữ liệu

I.4.3 Phơng pháp xử lý vector tha:

Theo mô hình vector chuẩn, việc xử lý các phép toán trên vector sẽ phụ thuộc vào độ lớn của ma trận Wnm ở đây n là số lợng thuật ngữ hay số chiều của vector và m là số lợng văn bản có trong cơ sở dữ liệu Trên thực tế, số

lợng thuật ngữ và số văn bản có thể lên tới vài chục nghìn Khi đó số lợng

Trang 20

phần tử trong ma trận Wnm sẽ lên đến con số hàng trăm triệu và việc lu trữ

ma trận Wnm sẽ tốn quá nhiều tài nguyên bộ nhớ đồng thời các phép toán trên vector sẽ rất phức tạp Để khắc phục vấn đề này có thể sử dụng kỹ thuật xử lý trên vector tha thay vì việc lu trữ và xử lý trên vector chuẩn

I.5 Phân loại Văn bản:

Vấn đề phân loại bao gồm quá trình của sự học những đặc trng liên quan hoặc các thuộc tính của một lớp và sử dụng chúng để xác định một mẫu mới thuộc về lớp đó Các mẫu đã đợc phân loại trớc đó đợc sử dụng nhằm xây dựng một bộ mô tả lớp đó Để xác định vị trí của một mẫu mới, nó đợc

so sánh với các bộ mô tả của tất cả các lớp đã đợc phân loại để chọn ra bộ giống nhất

Một tình huống thiết thực đa ra là một công ty tìm cách làm thế nào

để có thể bán đợc nhiều nhất một sản phẩm mới Họ dựa vào hành vi của ngời dùng tơng ứng với các lớp khách hàng quen thuộc, phân tích các yếu

tố cần quan tâm au đó, việc tiêu thụ các sản phẩm S mới của khách hàng sẽ

đợc đem so sánh với những gì đã biết để xác định khách hàng tiềm năng Tất nhiên là sự phân loại này có thể dùng cho các ứng dụng khác

Nhiệm vụ trớc mắt của ta là l…m cách nào để có thể phân các thông tin ra các lớp khác nhau Với sự sắp đặt này, cái nào ở đâu cho thích hợp nhất

sẽ cho phép ta tìm đợc các đối tợng tơng tự một cách dễ dàng Nó cũng cho phép chúng ta tìm kiếm một cách có hiệu quả nhất Luận văn này tập trung vào áp dụng một cách tiếp cận mới dựa vào kỹ thuật khai phá dựa đồ thị

để giải quyết vấn đề của sự phân loại Trong phạm vi luận văn này chúng ta đề cập đến sự phân loại văn bản mà cụ thể hơn là phân loại th điện tử

Phân loại văn bản là một lĩnh vực nghiên cứu nhằm phân loại tài liệu theo các lớp đợc định nghĩa trớc Các lớp đợc định nghĩa dựa vào một tập các tài liệu mẫu đã đợc phân loại, đợc sử dụng trong quá trình huấn luyện Các kỹ thuật học máy nhằm mục đích phân loại văn bản một cách tự động đã

Trang 21

- Fuzzy Set Approach

- Rough Set Approach

Tất cả các cách tiếp cận phân loại văn bản đều rút những đặc tính đặc trng nhất từ những tài liệu mẫu để hình thành tập hợp huấn luyện cho lớp.Các kỹ thuật này sẽ đợc trình bày chi tiết ở chơng tiếp theo

I.6 Phân loại th điện tử:

Trong thời đại Internet, việc phân phối nhanh chóng các dữ liệu và thông báo tin tức một cách nhanh chóng đến với mọi ngời có thể thực hiện

đợc bằng cách dùng th điện tử Th điện tử có thể xem nh một dạng tài liệu đặc biệt và một vài thông tin liên quan tới nó nh từ đâu tới (from), tới

đâu (to), chủ đề (subject), đồng kính gửi (cc), các tệp đính kèm (attachments) nhằm tạo điều kiện thuậ lợi cho việc trao đổi thông tin giữa n các cá nhân cũng nh giữa các nhóm Nó là đợc xem nh là một phơng pháp nhanh, hiệu quả với chi phí thấp để có thể trao đổi với nhiều ngời một lúc Chính điều này cũng là nguyên nhân gây khó khăn cho việc trao đổi bằng th điện tử Đa số ngời dùng bị ngập chìm trong khối lợng th điện tử khổng lồ gửi đi và nhận đợc Ngời dùng phải bỏ ra rất nhiều thời gian và công sức để phân loại th điện tử vào các th mục tơng ứng với chúng

Các công cụ đa ra dùng để quản lý th điện tử, phân loại chúng để có thể sử dụng sau này Việc phân loại sai sẽ gây khó khăn rất nhiều cho việc sử dụng sau này Một khía cạnh trong việc quản lý th điện tử là sẽ phân loạichúng vào những th mục thích hợp một cách tự động với mức độ chính xác

Trang 22

có thể chấp nhận đợc

Chắc chắn sự có mặt của một hệ thống tự động hoá phân loại sẽ làm giảm bớt thời gian phân loại, tìm kiếm và phục hồi các th điện tử khi cần dùng tới chúng

Nhìn chung, bất kỳ hệ thống quản lý th điện tử nào đều cần có tính năng phân loại để có thể quản lý các th điện tử một cách có hiệu quả Việc chỉ số hoá (tơng tự nh trong th viện) đợc sử dụng để phân loại th điện tử Một từ hoặc một chỉ số sẽ đợc tạo ra để định vị các th mục và các th điện

tử Từ đây ngời ta có thể quản lý một cách có hiệu quả các th điện tử trong thời đại internet Phân loại th điện tử có thể mang so sánh việc lập danh mục các quyển sách trong một th viện Một quyển sách (th điện tử) sẽ đợc đa vào một giá sách (th mục) thích hợp Nếu quyển sách (th điện tử ) bị để nhầm chỗ trong một giá sách sẽ gây khó khăn rất nhiều cho việc tìm kiếm nó khi cần, thậm chí có thể không tìm đợc

do trên các phơng pháp tiếp cận truyền thống nhằm phân loại văn bản không thể thoả mãn nhu cầu phân loại th điện tử Đó là cha kể đến tập mẫu dùng

để học trong môi trờng th điện tử thì thay đổi liên tục nhằm thích ứng với nhu cầu ngời dùng Một vài sự khác nhau cơ bản sẽ đợc trình bày một cách

cụ thể hơn dới đây:

- Phân loại th điện tử thủ công dựa vào sự u tiên cá nhân nên các tiêu chuẩn phân loại ở đây không đơn giản nh phân loại văn bản thông thờng

Trang 23

Ví dụ, với những ngời dùng khác nhau có thể phân loại cùng một th điện

tử vào các th mục khác nhau dựa chính vào sự u tiên cá nhân của bản thân họ Với bất kỳ kỹ thuật phân loại nào cũng phải lu ý đến sự khác biệt này trong khi phân loại th điện tử

- Mỗi ngời dùng có ít nhất một hòm th riêng biệt và nó luôn luôn biến đổi Trong khi các th điện tử mới liên tục đợc thêm vào thì các th cũ cũng bị xoá đi Lợc đồ phân loại có khả năng thích ứng với sự thay đổi trên rất quan trọng

- Nội dung thông tin của các th điện tử thay đổi một cách đáng kể và vài yếu tố khác nh ngời gửi, nhóm địa chỉ ngời nhận, chủ đề th đóng một vai trò quan trọng trong sự phân loại Điều này trái ngợc với tài liệu thông thờng có nội dung phong phú nên dễ nhận ra chủ đề hoặc nlĩ h vực Với th

điện tử, chỉ riêng nội dung th có thể không đủ để cung cấp thông tin phân loại Đó là cha kể đến việc đa số các th điện tử không sử dụng các từ vựng cố định, tiêu chuẩn dẫn đến sự phân loại sẽ rất khó khăn

- Các đặc trng của từng lớp có thể thay đổi rất nhiều hoặc rất ít một cách tơng đối Một hệ thống phân loại cần thực hiện việc phân loại một cách tơng đối để ngời dùng có thể chấp nhận đợc mà lại không cần phải huấn luyện nhiều

- Các th điện tử trong một lớp có thể không đồng nhất Chúng có nội dung khác nhau và không có nhiều từ chung hoặc cùng một đề tài Chúng ta mô tả đặc điểm của các lớp này trên một phạm vi từ đồng nhất cho đến hỗn tạp Một lớp có thể mất tính đồng nhất khi số lợng th của nó quá nhiều làm cho nó khó có một chủ đề trọng tâm

- Các th điện tử đặc trng đại diện đợc phân loại vào trong những lớp con bên trong một lớp Sự khác nhau giữa các th điện tử đợc phân ra các lớp

có thể thuần tuý theo ngữ nghĩa hoặc hớng theo chủ đề Các lớp có thể

đợc tách ra để giữ đợc những đặc trng đại diện của lớp hoặc khi số

Trang 24

lợng th trong lớp đó quá nhiều dẫn đến khó kiểm soát Đôi khi các lớp cũng đợc sát nhập lại

Bất kỳ phơng pháp tiếp cận phân loại th điện tử nào cũng đều phải xử

lý các sắc thái này mà trong phân loại văn bản thông thờng không có Các kỹ thuật phân loại văn bản có thể ứng dụng để phân loại th điện tử nhng cần phải điều chỉnh sao cho phù hợp để thích nghi với những sự khác nhau liệt kê

ở trên

I.6.2 Trình bày quan điểm và phơng pháp tiếp cận:

Hầu hết các kỹ thuật phân loại trớc kia đều dựa trên các từ khoá hoặc các từ thờng xuyên xuất hiện mà không để ý đến tầm quan trọng của sự liên quan giữa các từ

Trong luận văn này chúng ta đa ra một phơng pháp tiếp cận mới sử dụng kỹ thuật khai phá dựa đồ thị để phân loại th điện tử Phơng pháp tiếp cận dựa trên cơ sở các đại diện đặc trng, đại diện Các cấu trúc/các mẫu đợc rút ra từ các th điện tử đã đợc phân loại trớc đó và sau đó có thể sử dụng để phân loại một cách có hiệu quả các th điện tử mới nhận đợc Phơng pháp học có giám sát nhằm xác định các đặc trng đợc sử dụng đ phân loạiể các th mới Các th trong cùng một lớp có một sự phù hợp với nhau và sự giống nhau giữa chúng cung cấp khả năng để có thể phân biệt giữa lớp này với lớp

Đồng thời, ngời dùng tự tổ chức các th mục (lớp) chứa th điện tử dựa vào nội dung theo yêu cầu của bản thân họ, thể hiện sự u tiên cá nhân (để tạo ra các th mục và các th mục con trong các th mục đó)

Phơng pháp tiếp cận của chúng ta là căn cứ vào các th trong các th mục để phân loại dựa kỹ thuật khai phá dựa đồ thị Khái niệm đồ thị tơng đốicũng đợc đa ra (hoặc sự so sánh đồ thị đồng hình) để có thể nhóm lại các các th điện tử có cấu trúc tơng tự thay vì so sánh một cách chính xác tuyệt

đối

Tóm tại, phơng pháp tiếp cận của chúng ta sử dụng một lớp th điện tử

Trang 25

để xác định mẫu đại diện và thờng xuyên xuất hiện nhằm xây dựng đồ thị tơng đối với một ngỡng giá trị xác định Khi ta nhận đợc một th điện tử mới nó sẽ đợc đa vào folder có các th mẫu phù hợp nhất với nó.

Trong cách tiếp cận của chúng ta, khái niệm phù hợp của đồ thị tơng

đối đợc sử dụng để đa ra những cấu trúc mô tả đặc điểm của lớp th điện tử Một vài các tham số khác cũng đợc xác định nh tần xuất xuất hiện mẫu đại diện, kích thớc trung bình của th điện tử

Điểm quan tâm chính của luận văn này là cách tiếp cận mới trong kỹ thuật khai phá dữ liệu Mặc dù kỹ thuật khai phá dữ liệu đã đợc biết đến từ lâu nhng việc áp dụng phơng pháp đồ thị trong khai phá dữ liệu thì khá là mới mẻ Phơng pháp tiếp cận mới này sẽ đợc áp dụng để phân loại th điện

tử

Trang 26

Chơng II - các kỹ thuật phân loại truyền thống

Khai phá dữ liệu văn bản đang đợc rất quan tâm và đã có nhiều phơng pháp đề xuất để giải quyết vấn đề nh kỹ thuật học máy, xác suất cơ bản Trong chơng này sẽ giới thiệu một tổng quan một cách ngắn gọn các phơng pháp tiếp cận truyền thống nhằm giải quyết vấn đề phân loại văn bản nói chung và th điện tử nói riêng Nhiều hệ thống phân loại th điện tử đã áp dụng các kỹ thuật này để tự động hóa việc sắp xếp những th điện tử

2.1 Kỹ thuật hân loại Văn bản P :

Trong phần này ta đa ra một cách nhìn tổng quan ngắn gọn các kỹ thuật phân loại văn bản truyền thống Ngời ta có thể phân loại văn bản một cách thủ công, hoặc sử dụng các phơng pháp phân loại tự động Để phân loại

đợc văn bản tự động thờng sử dụng các kỹ thuật học máy có giám sát (Supervised learning) Trong các kỹ thuật này, dữ liệu đợc chia thành hai phần: tập huấn luyện hay tập mẫu (training set) và tập kiểm thử (test set) Đầu tiên hệ thống sẽ đợc huấn luyện (học) thông qua tập mẫu, sau đó đánh giá hiệu quả của hệ thống thông qua tập kiểm thử

Các hệ thống phân loại văn bản nh vậy có thể ứng dụng trong việc phân loại tài liệu trong các th viện điện tử, phân loại bài viết trong các trang tin điện tử, hay phân loại công văn giấy tờ trong các công sở Một hệ thống phân loại tốt không những có thể thay thế con ngời mà thậm chí có thể đa ra những kết quả tốt hơn rất nhiều so với con ngời

Các kỹ thuật học máy nhằm mục đích phân loại văn bản một cách tự

động Sau đây chúng ta sẽ xem xét cụ thể một số các kỹ thuật thông dụng nhất

2.1.1 Thuật toán Support Vector Machines (SVMs):

Support Vector Machines là một phơng pháp học máy đợc Vapnik

Trang 27

đa ra năm 1979 nhng nó mới trở , nên phổ biến từ thập niên trớc Nhiều kết quả nghiên cứu và thực nghiệm cho thấy SVMs hoàn toàn phù hợp với nhiệm

vụ phân loại và cho kết quả phân loại với độ chính xác cao Phơng pháp này

đa ra các biệt số mà bao gồm mạng neural và cây quyết định Chúng dựa trên nguyên tắc tối thiểu cấu trúc rủi ro và mục tiêu là tối giản cấu trúc có chấp nhận rủi ro để thay thế rủi ro đáng có

Ta hãy xem xét ở trờng hợp đơn giản nhất mà ở đó có không gian các véc tơ có thể tách tuyến tính Vấn đề ở đây là ta sẽ tìm thấy một mặt cắt tốt nhất để tách các mẫu thành hai loại có tính chất trái ngợc nhau Một bề mặt nh vậy đợc gọi là siêu phẳng (hyperplane) f(x) và nó bao gồm các đờng biên phù hợp sao cho bề mặt có thể dịch chuyển mà không ảnh hởng tới sự phân loại Với bài toán phân loại SVMs, một siêu phẳng phân chia d ữ liệu

đợc gọi là “tốt nhất”, nếu khoảng cách từ điểm dữ liệu gần nhất đến siêu

phẳng là lớn nhất Khi đó, việc xác định một tài liệu có thuộc phân loại c hay

không, tơng đơng với việc xét dấu của f(x)

s Một SVM tuyến tính có thể phân chia tốt nhất các mẫu thành hai loại trái ngợc nhau Lề là khoảng cách từ siêu phẳng đến phía phần tử dơng tính

và phần tử âm tính gần nhất Trên hình vẽ chỉ cho ta thấy siêu phẳng có thể dịch chuyển trong phạm vi của lề mà không gây ra sự phân loại sai

Trang 28

Đờng nét liền trong hình vẽ chỉ ra rằng các siêu phẳng tách rời các mẫu thành hai miền, một miền gồm các mẫu dơng tính và một miền gồm các mẫu âm tính Đờng nét đứt là ranh giới mà siêu phẳng có thể dịch chuyển mà không làm sự phân loại bị sai đi Siêu phẳng trong hình vẽ có lề tối đa, các siêu phẳng khác sẽ có lề nhỏ hơn

Sao cho f(x) = sight{w * x + b} + 1 nếu yi= 1

- 1 nếu yi = 1 ∀(xi, yi) ∈ Tr (2.2) Những trờng hợp có thể tách ra tuyến tính có thể đợc khái quát hoá tới các trờng hợp tuyến tính không thể tách ra Việc thực hiện SVM cho bài s toán phân loại văn bản đã đợc nghiên cứu một cách kỹ lỡng và nó đa ra kết quả phân loại tốt hơn các phơng pháp phân loại khác Phơng pháp phân loại

SVM thực hiện tốt ngay cả trong trờng hợp dữ liệu tha thớt, trong thực tế s

sự phân loại chủ yếu phụ thuộc vào các vector hỗ trợ thuộc một lớp Nó có khả năng phân loại các dữ liệu có kích thớc lớn và rất ổn định

2.1.2 Thuật toán cây quyết định (Decision Tree):

Cây quyết định là một trong các phơng pháp đợc sử dụng rộng rãi nhất trong học quy nạp từ tập dữ liệu lớn Phơng pháp này đợc Mitchell đa

ra vào năm 1996, đây là phơng pháp học xấp xỉ các hàm mục tiêu có giá trị rời rạc Một u điểm của phơng pháp cây quyết định là có thể chuyển dễ

dàng sang dạng cơ sở tri thức là các luật Nếu - Thì (If - Then)

Trang 29

2.1 2 1 Mô tả cây quyết định:

Đầu ra của giải thuật là mô hình phân loại dới dạng một cây quyết

định Mô hình cây quyết định gồm các nút quyết định, các nhánh và các lá

- Mỗi lá gắn với một nhãn lớp,

- Mỗi nút quyết định mô tả một phép thử X nào đó,

- Mỗi nhánh của nút này tơng ứng với một khả năng của X

Hệ thống sẽ phân loại một tài liệu dj bằng phép thử đệ quy các trọng số

mà các khái niệm đợc gán nhãn cho các nút trong của cây với vector dj cho

đến khi đạt tới một nút lá, khi đó nhãn của nút lá này đợc gán cho tài liệu dj

Đa số các phơng pháp phân loại nh vậy sử dụng biểu diễn dữ liệu ở dạng nhị phân, các cây cũng đợc biển diễn dới dạng nhị phân

2.1.2 2 Xây dựng cây quyết định:

Quá trình xây dựng cây quyết định gồm hai bớc: phát triển cây và tỉa cây

Phát triển cây:

Bớc này sử dụng tập mẫu học đang xét để tạo ra một cây quyết định

tơng ứng Phần lớn các giải thuật hiện nay nh ID3, C4.5, SLIQ, SPRILT,

Trang 30

Việc dựng cây đợc thực hiện một cách đệ quy theo phơng pháp Hunt Khi dùng tập mẫu học T có các nhãn lớp {Ci, ,Ck} để phát triển một cây quyết định có thể x y ra một trong 3 trờng hợp sau:ẩ

1 Mọi mẫu trong T đều thuộc lớp Cj Cây quyết định tơng ứng sẽ chỉ là một lá có nhãn lớp là Cj

2 T là tập rỗng Khi đó cây quyết định tơng ứng cũng chỉ là một lá Tuy nhiên để xác định nhãn lớp cho lá này , cần có thêm thông tin

3 Các phần tử của T thuộc nhiều lớp khác nhau Dùng một phép thử X

có các khả năng Oi, , On loại trừ lẫn nhau để tách tập T thành các tập con Ti, ,Tn

rời nhau Cây quyết định tơng ứng với T sẽ gồm một nút quyết định có nhãn X

và n nhánh tơng ứng Lặp lại quá trình trên với từng tập con Ti

Quá trình phát triển cây hoàn thành khi các mẫu tơng ứng với từng lá

đều thuộc cùng một lớp hoặc khi tập mẫu có quá ít phần tử không cần tiếp tục phân chia nữa

* Đánh giá một phép thử:

Việc đánh giá một thuộc tính để tách tập mẫu tơng ứng với nút đang xét thờng dựa trên một số tiêu chuẩn sau:

o Độ đo thông tin Entropy

o Tiêu chuẩn Gain (Gain criterion)

o Tiêu chuẩn tỉ số Gain Ratio (Gain ratio criterion)

Entropy:

lợng hết sức quan trọng trong lý thuyết thông tin Giả sử đa ra tập S có chứa cái mẫu ví dụ dơng (+) và các mẫu ví dụ âm ( ), nh vậy S đợc chia thành -hai lớp phân biệt Khi đó Enlropy của tập S đợc định nghĩa nh sau:

Entropy(S) ≡ p- + log2 p+ p- -log2 p- (2.3)

Trang 31

trong đó p+ là phân bố của các ví dụ dơng trong S và p- là phân bố của các ví dụ trong S

Trong trờng hợp tổng quát, đại lợng Entropy đợc tínhnh sau:

trong đó, pi là phân bố của thuộc tính thứ i trong S Đại lợng Entropy

là đại lợng trong lý thuyết thông tin, tính theo bit, nên hàm logarithm đợc tính ở cơ số 2, do đó Entropy có thể lớn hơn 1 trong trờng hợp n > 2

Information Gain

Dựa trên Entropy, đại lợng đặc trng cho độ đồng nhất thông tin, ngời ta đa ra một độ đo xác định ảnh hởng của một thuộc tính của mẫu

trong việc phân loại, đại lợng đó gọi là Infor mation Gain

Gain(S,A) đợc xác định theo công thức sau:

Gain(S, A) ≡ Entropy(S) - ∑

∈ Values (A ) v

v

S

SEntropy(Sv) (2.5)

trong đó Values(A) là tập hợp các giá trị có thể của thuộc tính A, còn Sv

là tập con có thể của tập S gồm các phần tử có thuộc tính A = v, tức là

Sv={s∈S | A(s) = v}

Tiêu chuẩn tỉ số Gain Ratio:

Mặc dù tiêu chuẩn Gain cho kết quả khá tốt nhng nó lại không hề có tác dụng đối với phép thử có quá nhiều khả năng Để khắc phục hiện tợng

trên, ngời ta đa ra tiêu chuẩn tỉ số Gain Ratio xét thêm thông tin về sự phân

bố các khả năng của phép thử đó theo công thức:

split(S,A)

Trang 32

Tỉa cây:

Cây thu đợc ở bớc trên sẽ đợc thu gọn và tinh chỉnh nhằm loại bỏ các yêu tố mang tính thống kê và các dữ liệu bị nhiễu trong tập mẫu đang xét Quá trình dựng cây đệ qui ở trên sẽ dừng khi tất cả các mẫu ở các tập con đều thuộc cùng một lớp, hoặc khi không còn phép thử nào cần xét nữa Tuy nhiên, cây thu đợc thờng rất phức tạp và chỉ phù hợp với tập mẫu ban đầu Khi áp dụng cây với các dữ liệu mới sẽ gây sai số lớn Bớc tỉa cây sẽ loại bỏ những cây con, những nhánh không phù hợp nhằm thu đợc một cây đơn giản và chính xác hơn

Có hai phơng pháp tỉa cây cơ bản là:

- Tỉa cây trớc (prepruning): Quá trình tỉa cây trớc đợc thực hiện ngay

trong khi dựng cây

- Tỉa cây sau (postpruning): Quá trình tỉa cây sau đợc thực hiện khi đã

có một cây quyết định hoàn chỉnh

Tỉa cây sau tuy gây ra tốn kém về mặt thời gian và bộ nhớ do tạo ra các nút d thừa, nhng cây thu đợc sau khi tỉa thờng đạt độ chính xác phân loạicao Vì những lý do trên, quá trình thu gọn cây thờng đợc thực hiện bằng các phơng pháp tỉa cây sau

2.1.3 Thuật toán k- NN (k Nearest neighbor): -

Trong Thuật toán k-NN, bản thân tên phơng pháp đã gợi ý giúp ta có

thể hình dung đợc phơng pháp này Thuật toán k-NNdựa trên phơng pháp học máy đợc biết đến nh thuật toán hiệu quả trong nhiều lĩnh vực, đặc biệt

là trong bài toán phân loại văn bản T tởng chính của thuật toán là tính toán

độ phù hợp của văn bản đang xét với từng chủ đề dựa trên “ ” k văn bản mẫu có

độ tơng tự gần nhất Mỗi tài liệu trong tập mẫu để huấn luyện có một vector

đặc trng chứa các thuộc tính quan trọng nhất của mẫu Đặc trng đợc chọn

ra có thể chỉ đơn giản là tần suất xuất hiện của thuật ngữ trong tài liệu Để

Trang 33

phân loại một mẫu cha biết, ngời ta xây dựng vector đặc trng của nó và mang so sánh với các vector đặc trng của tất cả các mẫu đã đợc sử dụng trong quá trình huấn luyện

Trong ví dụ hình 2.4 sau đây biểu diễn việc khoanh vùng k văn bản gần nhất (k =5) với văn bản cần phân loại Từ k văn bản gần nhất tìm đợc cần đa

ra giải pháp để tìm phân loại phù hợp nhất với văn bản này

Hình 2.2 Minh hoạ việc khoanh vùng k văn bản gần nhất với k = 5

Khái niệm gần ở đây đợc hiểu là độ tơng tự hay độ giống nhau giữa các văn bản Có rất nhiều cách tính độ tơng tự (độ "gần") giữa hai văn bản trong đó phơng pháp đánh giá độ tơng tự dựa trên công thức cosine trọng số thờng đợc sử dụng rộng rãi nhất đây, văn bản đợc biểu diễn dới dạng ở vector

o T = {t1 2, t , … t } là tập hợp các thuật ngữ (hoặc các khái niệm), n

o W = {w1, w ,… w } vector 2 n trọng số trong đó wi là trọng số của thuật ngữ ti,

o Xét hai văn bản X = {x1, x2, ,xn} và Y = {y1, y2, ,yn} trong đó

xi, yi là tần số thuật ngữ ti xuất hiện tơng ứng trong văn bản X, Y Khi đó độ tơng tự giữa hai văn bản X và Y đợc tính theo công thức:

Phân loại 1 Phân loại 2 Văn bản cần phân

Trang 34

t t t

T

t t t t t

w y w

x

w y w x Z

Y X ine Y

) (

) , , ( cos ) ,

* Gán nhãn theo số đông:

Văn bản đang xét sẽ đợc gán nhãn cho chủ đề có nhiều văn bản gần văn bản đang xét nhất trong số “ ” k văn bản Về mặt trực quan, nên gán nhãn phân loại 2 cho văn bản d vì có 3 văn bản thuộc lớp này Nếu chọn theo văn bản gần nhất (gán nhãn chủ đề l) thì có thể lầm vì khả năng có nhiều hoặc tập mẫu chứa sai sót Nh vậy, cách đánh giá này đã khắc phục đợc lỗi trong tập mẫu, tuy nhiên lại vẫn cha đợc đánh giá cao trong một số tình huống

* Gán nhãn theo độ phù hợp chủ đề:

Phơng pháp này cần lần lợt tính độ phù hợp của văn bản d với từng chủ đề từ “ ” k văn bản đã lấy ra, sau đó gán nhán chủ đề phù hợp nhất cho d

Độ phù hợp giữa một văn bản d và chủ đề c đợc tính theo công thức:

Đây là phơng pháp thờng cho độ chính xác cao nhất

Thuật toán k-NN còn đợc sử dụng trong bài toán tìm kiếm văn bản và bài toán tóm tắt văn bản Hạn chế của phơng pháp này là khó thực hiện với dữ liệu lớn hoặc khi số mẫu tăng lên

Trang 35

2.1.4 Phơng pháp Bayes đơn giản hoá :

Phơng pháp này sử dụng xác suất làm cơ sở cho sự phân loại mà sự tham gia vào một lớp phụ thuộc vào xác suất sự kiện của lớp đó và xác suất sự kiện của các mẫu thuộc lớp đó Với nhiệm vụ phân loại văn bản, việc này có thể hiểu là sự phối hợp của xác suất xuất hiện của các thuật ngữ trong các lớp

đã có để dự đoán loại của một tài liệu Sử dụng quy tắc ayes chúng ta có thể B

dự đoán xác suất xảy ra của một loại Cj giữa một tập hợp những loại có thể xảy ra C = C1, C2, C3, , Cn và đợc đa cho một tập hợp những thuật ngữ T =

t1, t2, t3, , tn với

p ( C j | t1, t2, t3, , t n ), ∝ p ( t1, t2, t3, , t n |, C j ) p ( C j ) (2.8)

Phơng pháp Bayes đơn giản hoá bằng cách giả định các thuật ngữ độc lập (mặc dù không đúng là nh vậy), xác suất có điều kiện của một thuật ngữ xuất hiện trong một tài liệu thì độc lập với những xác suất có điều kiện của những thuật ngữ khác cũng xuất hiện trong tài liệu đó

j p t C C

T p

1 ( | ) )

j T p C t C C

p

1 ( | ) )

( )

|

Mặc dù sự chấp nhận này thờng không chính xác lắm, nhng nó đơn giản hoá đợc tính toán xác suất của các thuật ngữ (chúng có thể tính toán một cách độc lập) Sự phân loại bằng phơng pháp này m ng lại kết quả tốt và a

có thể mang so sánh với các kỹ thuật phức tạp nh cây quyết định và mạng neural

Trên đây chúng ta đã thảo luận về các kỹ thuật phân loại văn bản Chúng đã đợc nghiên cứu kỹ và những phơng pháp luận khác đã đợc áp dụng để giải quyết các nhiệm vụ trớc mắt của việc phân loại văn bản Sau

đây ta sẽ nói rõ công việc cần giải quyết trong kỹ thuật phân loại th điện tử

Trang 36

2.2 Kỹ thuật Phân loại th điện tử:

Nh ta đã nêu, phân loại th điện tử có những đặc thù nhất định, khác với sự phân loại văn bản thông thờng Các đặc trng nhất định của nó (ví dụ nh thông tin trong các đầu mục, vân vân) phải đợc xem xét để có thể phân loại một cách tốt nhất Nhiều kỹ thuật phân loại văn bản đã đợc áp dụng để phân loại th điện tử Dựa vào cơ chế sử dụng, các hệ thống phân loại th điện

tử có thể phân ra thành các loại nh sau:

- Sự phân loại dựa trên các qui tắc

- Sự phân loại dựa trên cơ sở sự phục hồi thông tin

- Phân loại theo kỹ thuật học máy

Sau đây, ta đa ta một vài hệ thống đã đợc phát triển để tự động hoá việc phân loại th điện tử

2.2.1 Sự phân loại dựa trên các qui tắc :

Các hệ thống phân loại th điện tử sử dụng các qui tắc phân loại để phân loại các th điện tử vào các folder Dựa trên các quy tắc đặt ra các hệ thống phân loại dựa vào nó đ phân loại những th điện tử vào trong những ể folder William Cohen sử dụng thuật toán học máy RIPPER đa ra “từ khóa nhằm phát hiện các quy tắc” để phân loại th điện tử RIPPER đề xuất phơng pháp học có khả năng phân loại tốt với tập dữ liệu lớn Cohen biện luận rằng việc sự dụng các từ khoá có thể mô tả tốt hơn các th điện tử cần phân loại

Hệ thống Ripper đợc mang so sánh với với phơng pháp IR truyền thống dựa trên TF IDF và cả hai đều đa ra các kết quả với độ chính xác nh nhau- Hệ thống phân loại i-ems (Intelligent Mail Sorter) phân loại th điện tử chỉ dựa trên thông tin và các từ khoá ngời gửi Ishmail là một hệ thống phân loại khác với Emacs mail program Rmail

Mặc dù các luật phân loại đa ra rất dễ hiểu nhng việc sử dụng tốt các luật này không dễ dàng chút nào Ví nh số lợng và đặc trng đầu vào các th điện tử ay đổi thì các qui tắc cũng phải sửa đổi theo cho phù hợp Điều th

Trang 37

này khiến ngời dùng luôn phải xem xét và cập nhật các luật thờng xuyên Hầu hết các chơng trình quản lý th điện tử (ví dụ nh outlook, eudora) cho phép ngời sử dụng đa ra các luật để phân loại các th điện tử vào các folder Các qui tắc này phải đợc chỉ rõ một cách thủ công và có thể sử dụng các từ thuộc nhiều phạm trù khác nhau Vấn đề ở đây là việc chỉ ra và quản lý một cách thủ công khiến nó trở nên phức tạp và phải thờng xuyên thay đổi để chúng có thể hoạt động một cách bình thờng

2.2.2 Sự phân loại dựa trên cơ sở sự phục hồi thông tin:

Segal và Kephart sử dụng qui tắc phân loại TF - IDF trong hệ thống SwiftFile Hệ thống dự đoán đa ra 3 khả năng phân loại với mỗi Th điện tử

Hệ thống phân loại TF IDF dựa trên cơ sở kỹ thuật TF IDF trong việc – –phục hồi thông tin Với mỗi folder Th điện tử, các vectơ điều kiện thờng xuyên xuất hiện trong folder đó và hiếm khi xuất hiện trong các folder khác

đợc đa ra Việc lựa chọn một tập hợp các điều kiện nh vậy sẽ đa ra khả năng phân biệt giữa các folder Để phân loại th điện tử, khái niệm tần suất vector điều kiện đợc đa ra Nó so sánh với các vector TF – IDF của tất cả các folder và nó đợc đa vào folder có khoảng cách cosine là cực đại

2.2.3 Phân loại theo kỹ thuật học máy:

Các hệ thống phân loại trên cơ sở học máy đã đợc phát triển Hệ thống iFile của Rennie phân loại tốt th điện tử bằng cách sử dụng phơng pháp Bayes để huấn luyện nhiều lần, lặp lại Phơng pháp Bayes cũ ng đợc sử dụng trong hệ thống của Sahami et.al để lọc th rác một cách rất hiệu quả Hệ thống phân loại th điện tử Re:Agent của Boone đầu tiên sử dụng TF IDF để rút ra -các đặc tính hữu ích nhất của các th điện tử sau đó sử dụng chúng để huấn luyện và thiết lập các từ khoá Chúng sử dụng phơng pháp phân loại nearest neighbor và mạng neural để nhằm dự đoán và so sánh kết quả đạt đợc với tiêu chuẩn IR, sử dụng giải thuật TF-IDF

Trang 38

Qua việc phân tích các kỹ thuật phân loại th điện tử, ta thấy các hệ thống phân loại cần phải đợc huấn luyện trong môi trờng th điện tử của ngời dùng Kiến thức học đợc sẽ đợc sử dụng để phân loại một cách tự

động các th điện tử vào các folder hoặc đa ra các gợi ý thông minh để ngời dùng lựa chọn

Các thông tin trong các đầu mục th điện tử rất quan trọng, các hệ thống phân loại dựa vào nó để phân loại

Trang 39

Chơng III - kỹ thuật khai phá dựa trên đồ thị

Khai phá dữ liệu dựa trên đồ thị rất thích hợp với việc khai phá dữ liệu

có cấu trúc Ví dụ nh việc khai phá dữ liệu của các hỗn hợp hoá học, proteins, DNA, với cấu trúc vốn có của chúng Giữa các thực thể có cấu trúc này tồn tại các mối quan hệ phức tạp Ví dụ, mối ràng buộc đôi hoặc ba giữa các phần tử carbon và các phần tử khác trong một hỗn hợp hữu cơ phức tạp, cấu trúc hình trôn ốc của những phần tử DNA, có thể miêu tả một cách chính xác bằng cách sử dụng dạng đồ thị Sự miêu tả bằng đồ thị thông qua sự lựa chọn tự nhiên để đơn giản hoá các mối quan hệ phức tạp một cách trực quan đợc mang so sánh với các cách miêu tả khác Mối quan hệ giữa các đối tợng trong một cấu trúc phức tạp đợc trình một cách dễ hiểu và đại diện bằng các đồ thị Một điều rất quan trọng là biểu diễn bằng đồ thị giữ đợc cấu trúc ban đầu của chúng mà nó có thể bị mất đi nếu sử dụng các phơng pháp trình bày khác Với các đối tợng có hình dạng khác nhau đợc hình thành dựa trên một bảng Sự miêu tả giống nhau trên đồ thị cho phép trực quan hoá

và nhận ra một cách nhanh chóng chu kỳ xuất hiện các mẫu của các đối tợng

và sự sắp xếp đặc biệt của chúng

Trong hệ thống khai phá dữ liệu dựa trên đồ thị, thuật toán khai phá dữ liệu sử dụng đồ thị để biểu diễn tri thức; điều này có nghĩa cần chuyển đổi dữ liệu sang dạng đồ thị Không gian tìm kiếm của thuật toán khai phá dữ liệu dựa trên đồ thị bao gồm tất cả các đồ thị con có thể tìm thấy từ đồ thị đầu vào Vì vậy, không gian tìm kiếm tính theo hàm mũ, do đó thời gian chạy các giải thuật này, trừ phi có một ràng buộc nào đó, sẽ tuân theo hàm mũ

Tiêu đề	Phân Loại Thư Điện Tử Bằng Kỹ Thuật Khai Phá Dựa Trên Đồ Thị
Tác giả	Hoàng Trọng Vinh
Người hướng dẫn	PGS. TS. Nguyễn Thanh Thủy
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	luận văn thạc sĩ
Năm xuất bản	2005
Thành phố	Hà Nội

Định dạng
Số trang	79
Dung lượng	2,39 MB