Cách tiếp cận của chúng ta dựa trên cơ sở các cấu trúc đại diệnhoặc các mẫu đợc rút ra từ các th điện tử mẫu đã đợc phân loại và sau đó có thể sử dụng để phân loại các th điện tử nhậ
Trang 1Trờng đại học bách khoa hà nội
-
luận văn thạc sĩ khoa học
Phân loại th điện tử bằng kỹ thuật khai phá dựa trên đồ thị
ngành: công nghệ thông tin
hoàng trọng vinh
Ngời hớng dẫn khoa học: PGS TS Nguyễn Thanh Thuỷ
hà nội 2005
Trang 2Mục lục
Danh mục các chữ viết tắt 3
Danh mục các hình vẽ, đồ thị 4
Mở đầu 5
Chơng I - tổng quan 7
I.1 Khai phá dữ liệu dạng văn bản: 8
I.2 Một số khái niệm cơ bản trong xử lý văn bản: 9
I.2.1 Từ khoá, thuật ngữ và khái niệm: 9
I.2.2 Từ dừng (Stop words): 10
I.2.3 Trọng số của thuật ngữ: 10
I.2.4 Độ liên quan giữa các văn bản: 11
I.3 Các bài toán cơ bản trong xử lý văn bản: 11
I.3.1 Tìm kiếm văn bản (Text Retrieval): 11
I.3.2 Phân loại văn bản (Text Classification): 12
I.3.3 Phân nhóm văn bản (Text Clustering): 13
I.3.4 Tóm tắt văn bản (Text Summarization) 13
I.3.5 Dẫn đờng văn bản (Text Routing): 14
I.4 Phơng pháp biểu diễn văn bản theo mô hình không gian vector: 15 I.4.1 Mô hình Boolean: 16
I.4.2 Mô hình Tần số: 17
I.4.3 Phơng pháp xử lý vector tha: 18
I.5 Phân loại Văn bản: 19
I.6 Phân loại th điện tử: 20
I.6.1 Các khó khăn, thách thức đặt ra: 21
I.6.2 Trình bày quan điểm và phơng pháp tiếp cận: 23
Chơng II các kỹ thuật phân loại truyền thống - 25
2.1 Kỹ thuật Phân loại Văn bản: 25
2.1.1 Thuật toán Support Vector Machines (SVMs): 25
2.1.2 Thuật toán cây quyết định (Decision Tree): 27
2.1.3 Thuật toán k-NN (k - Nearest neighbor): 31
2.1.4 Phơng pháp Bayes đơn giản hoá: 34
2.2 Kỹ thuật Phân loại th điện tử: 35
2.2.1 Sự phân loại dựa trên các qui tắc: 35
2.2.2 Sự phân loại dựa trên cơ sở sự phục hồi thông tin: 36
2.2.3 Phân loại theo kỹ thuật học máy: 36
Chơng III kỹ thuật khai phá dựa trên đồ thị - 38
3.1 Tổng quan: 39
3.2 Hệ thống phát hiện cấu trúc con SUBDUE: 42
3.2.1 Phát hiện cấu trúc con: 44
Trang 33.2.2 Nén đồ thị: 47
3.2.3 Đối sánh đồ thị tơng đối: 48
3.2.4 Tham số cho luồng điều khiển: 48
Chơng 4 - Hệ thống phân loại th điện tử 52
4.1 Tổng quan: 52
4.1.1 Tiền xử lý (Folder Pre-processing): 53
4.1.2 Biểu diễn Đồ thị (Graph Representation): 54
4.1.3 Trích xuất cấu trúc con (substructure extraction): 54
4.1.4 Lợc bỏ cấu trúc con đại diện (Representative Substructure Pruning): 54
4.1.5 Xếp loại cấu trúc con đại diện (Representative Substructure Ranking): 55
4.1.6 Xử lý th điện tử đầu vào (Processing Input Email): 55
4.1.7 Sự Phân loại (Classification): 55
4.2 Quá trình tiền xử lý (Pre-processing): 55
4.2.1 Các đặc trng của tiếng Việt: 56
4.2.2 Phân tách từ trong tiếng Việt dựa vào từ điển: 59
4.2.3 Lựa chọn mẫu cho đồ thị đầu vào: 60
4.3 Biểu diễn Đồ thị (Graph Representation): 62
4.4 Tác động của đặc trng lớp (Impact of Folder Characteristics): 64
4.4.1 Kích thớc trung bình th điện tử và giá trị ngỡng (Average email Size and Threshold) 65
4.4.2 Kích thớc trung bình của th điện tử và folder so với số cấu trúc con (Average email Size & Folder Size Vs Number of Substructures) 66
4.4.3 Kích thớc chùm tia (Beam Size) 67
4.4.4 Kích thớc cấu trúc con tối thiểu (Substructure Size VsMinsize) 67
4.4.5 Lợc bỏ cấu trúc con và xếp hạng (Substructure Pruning and Ranking) 67
4 5 hân loại (Classification) 68 P 4.6 Kết quả cài đặt và thử nghiệm: 69
kết luận và hớng phát triển tiếp theo 75
5.1 Kết luận: 75
5.2 Hớng phát triển của luận văn: 75
Tài liệu tham khảo 77
Trang 4Danh mục các chữ viết tắt
STT Chữ viết tắt Viết đầy đủ
3 k-NN k Nearest neighbor
-4 MDL Minimum Description Length Principle
5 SVMs Support Vector Machines
Trang 5Danh mục các hình vẽ, đồ thị
Hình 1 1 Chức năng truy vấn của trang web www.google.com.vn
Hình 1 2 Chức năng dẫn đờng văn bản trong trang web www.vnn.vn
Hình 2.1 Siêu phẳng phân chia các mẫu
Hình 2.2 Minh hoạ việc khoanh vùng k văn bản gần nhất với k = 5
Hình 3.1 Cấu trúc đồ thị ban đầu
Hình 3.2 Mở rộng các cấu trúc con theo tất cả các cách có thể
Hình 3.3 Nén đồ thị bằng các cấu trúc con tìm đợc
Hình 3.4 Các cấu trúc con tìm đợc bằng cách mở rộng cấu trúc con (a)
Hình 3.5 Sử dụng đồ thị con G’c để nén đồ thị đầu vào G
Hình 3.6 Tệp đầu vào có nội dung là danh sách các đỉnh và các cạnh tơng ứng giữa chúng
Hình 3.7 Biểu diễn đồ thị đầu vào trong hệ thống SubDue
Hình 3.8 Đồ thị con tốt nhất nhận đợc ở đầu ra của hệ thống
Hình 3.9 Tham số ở đầu ra của hệ thống SubDue
Hình 3.10 Cấu trúc con tốt nhất nhận đợc ở đầu ra của hệ thống SubDue Hình 3.11 Biểu diễn đồ thị con tốt nhất ở đầura hệ thống SubDue
Hình 4.1 Hệ thống phân loại th điện tử
Hình 4.2 Các biểu diễn đồ thị
Hình 4.3 Tệp đồ thị đầu vào
Hình 4.4 Một th điện tử tiếng Việt
Hình 4.5 Nguồn từ điển tiếng Việt sử dụng trong chơng trình
Hình 4.6 Tệp các đồ thị đầu vào
Hình 4.7 Kết quả đầu ra của hệ thống phát hiện cấu trúc đồ thị con
Hình 4.8 Một th điện tử tiếng Việt không dấu
Trang 6Mở đầu
Sự phát triển vợt bậc của công nghệ thông tin – truyền thông nói chung và Internet nói riêng dẫn đến khả năng chia sẻ, trao đổi thông tin một cách nhanh chóng, chính xác Với lợng thông tin, tri thức khổng lồ nhận
đợc từ Internet nói chung và th điện tử (Email nói ) riêng, con ngời ta không thể xử lý chúng bằng phơng pháp thủ công một cách có hiệu quả Từ
đó nảy sinh nhu cầu về xử lý thông tin văn bản một cách tự động
Trên thế giới đã có rất nhiều thành công trong lĩnh vực nghiên cứu xử lý văn bản nói chung và trong th điện tử nói riêng trong các phòng thí nghiệm hay trong các viện nghiên cứu của các trờng đại học ở Mỹ, Pháp, Nhật Bản, Canada, Tuy nhiên các thành công đó chủ yếu tập trung vào vấn đề nghiên cứu văn bản, th điện tử tiếng Anh, tiếng Pháp là những ngôn ngữ tơng đối
đơn giản khi xử lý Trong khi đó, rất ít công cụ đã đợc xây dựng thực sự thành công trong lĩnh vực xử lý văn bản, th điện tử tiếng Việt Ngày nay, việc trao đổi thông tin, tri thức tiếng Việt qua Web, th điện tử là một nhu cầu tất yếu không thể thiếu đợc, nhu cầu nghiên cứu và xây dựng các công cụ khai phá văn bản tiếng Việt nói chung và th điện tử nói riêng đang đợc hết sức coi trọng
Phân loại văn bản là một lĩnh vực nghiên cứu nhằm phân loại các tài liệu theo các lớp đợc định nghĩa trớc Các lớp đợc định nghĩa dựa vào một tập các tài liệu mẫu đã đợc phân loại, đợc sử dụng để huấn luyện Các kỹ thuật đợc sử dụng có thể là các phơng pháp truyền thống nh học máy (Machine Learning), thống kê (Statistics), Các phơng pháp này cũng có thể ứng dụng để phân loại th điện tử và các trang web Hầu hết các phơng pháp này đều rút ra các từ khoá hoặc những từ thờng xuyên xuất hiện mà không để ý đến sự liên quan giữa các từ Sự liên quan giữa chúng rất quan trọng, nó có thể chỉ ra sự liên quan giữa các tài liệu bên trong một lớp Các hệ
Trang 7thống phân loại xác định các mẫu khác nhau nhằm phân loại các tài liệu tơng
tự
Luận văn này đề cập đến một phơng pháp phân loại mới dựa trên kỹ thuật đồ thị Cách tiếp cận của chúng ta dựa trên cơ sở các cấu trúc đại diệnhoặc các mẫu đợc rút ra từ các th điện tử mẫu đã đợc phân loại và sau đó
có thể sử dụng để phân loại các th điện tử nhận đợc sau này Trong cách tiếp cận này, khái niệm đối sánh đồ thị tơng đối có tác dụng đa ra các cấu trúc có khả năng mô tả đặc điểm nội dung của một lớp th điện tử Khả năng phân loại dựa trên sự tơng tự và không hoàn toàn chính xác là rất quan trọng trong sự phân loại, giống nh không bao giờ có hai mẫu hoàn toàn giống nhau ý tởng mới này có thể áp dụng để phân loại không những văn bản mà còn rộng rãi hơn nữa
Dới sự định hớng và hớng dẫn tận tình của thầy PGS TS Nguyễn
Thanh Thuỷ, tôi chọn bài toán xử lý cụ thể đặt ra trong luận văn này là Phân loại th điện tử bằng kỹ thuật khai phá dựa trên đồ thị
Trang 8Chơng I tổng quan -
Việc quản lý dữ liệu và thông tin đã đợc quan tâm với nhu cầu nhằm rút những yếu tố thiết yếu và quan trọng của một tài liệu và lu giữ nó để có thể sự dụng một cách có hiệu quả sau này Sự cần thiết này giống nh danh mục của các quyển sách trong th viện, nó giúp nhanh chóng tìm ra quyển ta sách mà ta đang quan tâm Trong một quyển sách, mục lục để ta dễ dàng xác
định đợc mục ta cần Internet chứa đựng một lợng thông tin khổng lồ Việc xác định cái gì là cần thiết cho ta là rất quan trọng, nó giúp ta quản lý các thông tin một cách có hiệu quả và lu trữ chúng để có thể sử dụng sau này.Quản lý thông tin ngày nay có một ý nghĩa to lớn giống nh công nghệ thông tin đã làm một cuộc cách mạng trong dữ liệu và tri thức là chia sẻ thông tin giữa mọi ngời trên phạm vi toàn cầu Một khối lợng thông tin khổng lồ ngay lập tức có thể nhận đợc thông qua việc truy cập nternet Cần có một cơ Ichế nhằm xác định thông tin nào là thích hợp cần phải truy cập Một cách đơn giản nhất là ta có thể lọc thông tin dựa vào sự có mặt hoặc không có mặt của một số từ khoá nhất định Trong những trờng hợp khác có thể xác định thêm ngữ cảnh, thời điểm xuất hiện để có thể lọc ra những thông tin phù hợp với thời điểm Ví dụ, nếu cần rút ra tất cả các thông tin về ngôn ngữ Java mà chỉ cung cấp từ khoá “Java” thì rất có thể trong kết quả đa ra có nhiều thông tin không thích hợp Vấn đề là ta phải tìm cách cung cấp thông tin bổ ung để xác s
định cái nào là thích hợp Trong một trờng hợp khác, quản lý thông tin có thể phức tạp nh việc tóm tắt thông tin Một cơ chế khác cho quản lý thông tin là
sự phân loại, điều này cho phép ta phân loại thông tin thành các phạm trù khác nhau tuỳ thuộc vào sự quan tâm của ngời dùng
Trang 9I.1 khai phá dữ liệu dạng văn bản:
Khai phá dữ liệu văn bản là một lĩnh vực nghiên cứu về các phơng thức xử lý, tìm kiếm thông tin trong những kho thông tin đợc lu trữ bằng văn bản Trong các dạng dữ liệu thờng xuyên đợc sử dụng thì văn bản là một trong những dạng đợc dùng phổ biến nhất Văn bản có mặt ở mọi nơi và thờng xuyên hàng ngày Văn bản có thể là các bài báo cáo, các tài liệu kinh doanh, các thông tin kinh tế, các bài nghiên cứu khoa học, Dù việc áp dụng cơ sở dữ liệu vào hoạt động quản lý của các tổ chức là rất phổ biến và mang lại nhiều lợi ích trong lu trữ cũng nh trong xử lý, nhng trên thực tế còn rất nhiều thông tin khác đợc lu trữ dới dạng văn bản Do đó, các bài toán xử lý văn bản đã đợc đặt ra từ khá lâu và cho đến nay vẫn là một bài toán quan trọng trong khai phá dữ liệu
Dữ liệu văn bản thờng đợc chia thành hai loại:
- Dạng phi cấu trúc (unstructured): là loại văn bản chúng ta sử dụng hàng ngày đợc thể hiện dới dạng ngôn ngữ tự nhiên của con ngời và không có một cấu trúc định dạng cụ thể nào Ví dụ: các văn bản lu dới dạng tệp tin của Microsoft Word
- Dạng bán cấu trúc (semi structured): là loại văn bản không - đợc lu trữ dới dạng các bản ghi chặt chẽ mà đợc tổ chức qua các thẻ đánh dấu để thể hiện nội dung chính của văn bản Ví dụ: Th điện tử, dạng tệp tin HTML,
Tuỳ từng mục đích sử dụng cụ thể mà việc xử lý văn bản đợc thực hiện trên dạng cấu trúc nào Ví dụ, với bài toán phân loại nội dung trang web thì dạng văn bản cần xử lý là HTML
Khai phá dữ liệu văn bản (text mining) đợc định nghĩa là quá trình tìm kiếm tri thức trong những tập hợp bao gồm rất nhiều văn bản có nội dung đa dạng và đợc thu thập từ nhiều nguồn khác nhau Khai phá dữ liệu văn bản là một lĩnh vực nghiên cứu rất rộng và bao hàm nhiều lĩnh vực con
Trang 10I.2 Một số khái niệm cơ bản trong xử lý văn bản:
Trong xử lý văn bản nói chung và th điện tử nói riêng có sử dụng một
số thuật ngữ cần đợc làm rõ để tiện cho việc sử dụng sau này
I.2 1 Từ khoá, thuật ngữ và khái niệm :
* Từ khoá (keyword): là các từ xuất hiện trong một văn bản ở dạng nguyên thể, có nghĩa trong từ điển Ví dụ với câu sau: “Chương trỡnh khuyến mại tặng miễn phớ modem ADSL tổ chức song song đồng thời với chương trỡnh khuyếnmại tặng 30% cước hoà mạng + 20% giỏ thiết bị modemđầu cuối , các từ ”khoá có thể đợc tách ra là “Chương trỡnh”, “khuyến mại”, “miễn phớ”
“modem”, “ADSL”, “ tổ chức”, “song song “đồng thời”, “30%”, “cước ”, hoàmạng”, “20% giỏ”, “ ”, “thiết bị”, “đầu cuối”
* Thuật ngữ (term): là các từ khoá có nghĩa liên quan đến một lĩnh vực nào
đó, ví dụ: "chuyển tiền nhanh", "tem th", "điện thoại" Các thuật ngữ này thuộc về lĩnh vực "Bu điện"
* Khái niệm (concept): Là các thuật ngữ nhng nó là sự khái quát hoá, tổng quát hoá của nhiều thuật ngữ khác Ví dụ: khái niệm "máy tính" có thể chứa
"tin học" nhiều hơn so với thuật ngữ "số hoá" Một tiêu chuẩn để xem xét mức
độ liên quan là xác xuất đồng xuất hiện của cặp khái niệm thuật ngữ trong - các văn bản Khi thuật ngữ "máy tính" xuất hiện nhiều trong các văn bản chứa thuật ngữ "tin học" thì có nghĩa là độ liên quan giữa cặp "tin học" - "máy tính" càng cao Một lý do để giải thích suy luận này là mức độ thay thế ở đây, không chỉ hiểu đơn thuần giống nh sự thay thế 1 1 giữa hai từ (ví dụ: "loài -
Trang 11ngời" - "nhân loại") mà có thể xem nh giữa cặp khái niệm thuật ngữ có sự - thay thế bộ ph n (ví dụ: "máy ậ tính" - "bàn phím").
I.2 2 Từ dừng (Stop words) :
Có thể quan sát thấy rằng trong các ngôn ngữ tự nhiên, rất nhiều từ
đợc dùng để biểu diễn cấu trúc câu nhng hầu nh không mang ý nghĩa về mặt nội dung, chẳng hạn các loại từ: giới từ, liên từ, Các loại từ này xuất hiện thờng xuyên trong các văn bản nhng không hề mang bất cứ một thông tin nào về nội dung hay chủ đề của văn bản Những từ đó dợc gọi là từ dừng (Stop words) Việc loại bỏ các từ nh vậy cũng đồng nghĩa với việc giảm số chiều của văn bản
Khái niệm Từ dừng (Stop word) là các từ mang ít ý nghĩa trong xử lý văn bản vì nó xuất hiện trong hầu hết các văn bản Ví dụ: ó thể, nếu, vì vậy, csau khi, thì, một số, với lại, quả thật, hầu nh,…
Có một số phơng pháp để xác định các từ dừng:
- Xây dựng một thuật toán phát hiện các từ dừng Trong thuật toán này cần đa ra một ngỡng để phát hiện từ dừng Ví dụ nếu phát hiện thấy , một từ 1 xuất hiện trong quá 50% số văn bản có thể coi đó là từ dừng.,
- Sử dụng so sánh với một từ điển từ dừng đã đợc xây dựng trớc
I.2.3 Trọng số của thuật ngữ:
Trọng số của thuật ngữ là độ quan trọng hay hàm lợng không tin mà thuật ngữ đó mang lại cho văn bản Nó là đại lợng dùng để đo sự khác biệt giữa văn bản chứa nó với các văn bản khác Đại lợng này thờng đợc xác
định bằng tay hoặc đánh giá bằng số lần xuất hiện của thuật ngữ trong văn bản
và số lần xuất hiện của thuật ngữ đó trong các văn bản khác Khi số lần xuất hiện của thuật ngữ trong văn bản càng nhiều thông tin nó mang lại càng lớn , Khi số lần xuất hiện của nó trong các văn bản khác càng nhiều thông tin nó , mang lại càng ít
Trang 12I.2.4 Độ liên quan giữa các văn bản:
Độ liên quan gi a hai văn bản là một đại lợng ữ đo mức độ giống nhau
về một nội dung giữa hai ăn bản ó Các phơng pháp đánh giá độ liên quan v đchia thành hai loại:
- Đánh giá theo tần suất xuất hiện thuật ngữ
- Đánh giá theo ngữ nghĩa
Cách đánh giá độ liên quan theo tần suất xuất hiện thuật ngữ thì không quan tâm đến thứ tự sắp xếp của các thuật ngữ trong văn bản mà chỉ quan tâm
đến số lần nó xuất hiện trong văn bản đó Ví dụ: Phơng pháp sử dụng hệ số Dice, hệ số Jaccard, hệ số consine,
ố Cách đánh giá theo ngữ nghĩa không chỉ chú ý đến s lần xuất hiện thuật ngữ trong văn bản mà còn chú ý cả đến sự kết cấu giữa các từ trong từng câu văn Phơng pháp đánh giá thuộc loại này thờng phức tạp hơn, yêu cầu
có các giải thuật phù hợp với từng ngôn ngữ cụ thể
I.3 Các bài toán cơ bản trong xử lý văn bản:
Lewis đã chia ra một số bài toán cơ bản trong xử lý văn bản, bao gồm: bài toán tìm kiếm văn bản (Text Retrieval), bài toán phân loại văn bản (Text Classification), bài toán phân nhóm văn bản (Text Clustering), bài toán định tuyến văn bản (Text Routing), bài toán tóm tắt văn bản (Text Summarization)
I.3.1 Tìm kiếm văn bản (Text Retrieval):
Tìm kiếm văn bản là quá trình tìm các văn bản tr ng một kho lu trữ otheo các yêu cầu của ngời dùng ở đây, các yêu cầu là các truy vấn và thờng đợc biểu diễn dới dạng thuật ngữ hay biểu thức logic giữa các thuật ngữ
Ví dụ: truy vấn: “th điện tử“ AND (“rác“ OR “spam“) ứng với
truy vấn này search engine của hệ thống sẽ tìm tất cả các tài liệu về “th
Trang 13điện tử“ có liên quan đến “rác“ hoặc “spam“ Trên thực tế thì hầu hết các
hệ thống chỉ đợc thiết kế để hiểu các truy vấn tơng tự nh th điện tử“ ” OR
“rác” OR “spam” Với câu truy vấn này hệ thống sẽ tìm kiếm các tài liệu theo
mức phù hợp với cả ba thuật ngữ “ th điện tử , “rác“, “spam“ “ Kết quả
đầu ra của một phép truy vấn là danh sách các tài liệu đợc sắp xếp giảm dần theo mức độ phù hợp với câu truy vấn đầu vào
Hình 1 1 Chức năng truy vấn của trang web www.google.com.vn
I.3 2 Phân loại văn bản (Text Classification):
Phân loại văn bản đợc coi nh quá trình gán các văn bản vào một hay nhiều lớp văn bản đã đợc xác định trớc dựa trên nội dung của văn bản đó Ngời ta có thể phân loại các văn bản một cách thủ công, tức là đọc tìm văn bản và gán nó vào một lớp nào đó, cách này sẽ tốn rất nhiều thời gian và công sức khi số lợng văn bản lớn nên không khả t i Do vậy cần phải có các hphơng pháp phân loại tự động Để phân loại tự động ngời ta thờng sử dụng các phơng pháp học áy trong trí tuệ nhân tạo Khi phân loại, văn bản đợc m
Trang 14gán vào một lớp theo một giá trị ngỡng nào đó Ngỡng đặt ra tùy thuộc vào thuật toán và yêu cầu ngời dùng
I.3 3 Phân nhóm văn bản (Text Clustering):
Phân nhóm văn bản là việc tự động sinh ra các nhóm văn bản dựa vào
sự tơng tự về nội dung của các văn bản Số lợng các nhóm văn bản ở đây là cha biết trớc, chẳng hạn số nhóm có thể là 2, 3, 5, Ngời dùng có thể chỉ
ra số lợng các nhóm cần phân nhóm hoặc hệ thống sẽ tự phân nhóm
Đối với bài toán này, không bao giờ có một kết quả thỏa mãn hoàn toàn theo ý ngời dùng Một lý do đơn giản để giải thích là máy không đợc học trớc Chúng ta phải thừa nhận rằng ngay cả con ngời cũng giải quyết bài toán này không giống nhau Ví dụ: lập nhóm các từ "thầy giáo", "diễn viên",
"phấn viết", "vở kịch"; một ngời sẽ lập thành 2 nhóm là: con ngời ("thầy giáo", "diễn viên" và sự vật ("phấn viết", "vở kịch", trong khi đó ngời khác lại phân chúng thành 2 nhóm khác: giáo dục( thầy giáo“ ” “, phấn viết”) và văn hóa ("diễn viên", "vở kịch") Do đó, việc đòi hỏi hệ thống tự động lập nhóm làm việc đúng tuyệt đối là điều không tởng
I.3 .4 Tóm tắt văn bản (Text Summarization)
Tóm tắt văn bản là bài toán tìm ra thể hiện nội dung của một văn bản thông qua một vài đoạn văn ng dụng điển hình của bài toán này là trong tìm ứkiếm văn bản Các kho lu trữ bao gồm rất nhiều tài liệu và kích thớc mỗi tài liệu có thể lên đến vài trăm trang Giả sử khi bạn đọc muốn tìm một tài liệu về
"Text Mining" và nhờ hệ thống tìm kiếm văn bản tìm giúp, hệ thống tìm kiếm
sẽ đa ra một danh sách các tài liệu với nội dung tơng đối phù hợp với "Text Mining" Nhng để viết thực sự tài liệu đó có phù hợp với mình hay không, bạn đọc đành phải đọc toàn bộ hoặc đọc một phần trong tài liệu Hệ thống tóm tắt văn bản sẽ làm cho việc tìm kiếm giảm nhẹ đi rất nhiều bằng cách tự động tóm lợc nội dung của toàn bộ văn bản bởi một vài đoạn văn bản Sau khi đọc qua đoạn tóm lợc này, bạn đọc có thể biết đợc đây có phải là tài liệu chứa
Trang 15thông tin mà họ đang cần hay không
I.3.5 Dẫn đờng văn bản (Text Routing):
Dẫn đờng văn bản là sự tổ hợp giữa bài toán tìm kiếm văn bản và phân lớp, nhóm văn bản Giống nh phân loại, nhóm văn bản, bài toán dẫn đờng cũng đa các văn bản về các lớp, nhóm khác nhau và việc xử lý này yêu cầu trong thời gian thực Tuy nhiên, nó cũng giống nh bài toán tìm kiếm ở chỗmỗi lớp, nhóm văn bản đợc gán với các thông tin cần thiết của một hay nhiều nhóm: ngời dùng Mỗi ngời dùng có thể thay đổi thêm bớt các yêu cầu của mình Quá trình phản hồi có thể đợc sử dụng để nâng cao chất lợng tìm kiếm văn bản
Một ứng dụng điển hình của bài toán dẫn đờng văn bản là trong các trang tin điện tử Khi đọc một tin mới, hệ thống sẽ đa ra danh sách các tin khác có liên quan đến nội dung đoạn tin đang đọc (hình 1.2)
Ngời dùng có thể theo các thông tin dẫn đờng này để theo dõi toàn
bộ diễn biến của sự kiện
Trang 16I.4 Phơng pháp biểu diễn văn bản theo mô hình không gian vector:
Phần này sẽ trình bày về một số phơng pháp biểu diễn văn bản thông dụng, trong đó đặc biệt chú ý đến phơng pháp biểu diễn văn bản theo mô hình không gian vector tần suất TF x IDF, đây là mô hình thờng đợc sử dụng trong phân loại th điện tử
Phơng pháp biểu diễn văn bản theo mô hình không gian vector là cáchbiểu diễn văn bản thông dụng nhất Đây là một cách biểu diễn tơng đối đơn giản Trớc đây có một số nghiên cứu nhận thấy phơng pháp này gây tốn kém chi phí lu giữ và công sức xử lý, nhng khi các phơng pháp xử lý vector tha đợc áp dụng thì các ợc nh điểm trên giảm đi rất nhiều và mang lại hiệu quả cho bài toán đặt ra
Bản chất của mô hình không gian vector:
Mỗi văn bản đợc biểu diễn thành một vector
Mỗi thành phần của vector là một từ khóa riêng biệt trong tập văn bản
gốc và đợc gán một giá trị là hàm f của từng từ khóa trong văn bản
Ta hãy xét ví dụ: "Mạng máy tính là một lập hợp các máy tính đợc nối với nhau bởi các đờng truyền vật lý theo một ki n trúc nào đó" Có thể biểu ếdiễn văn bản trên dới dạng các từ khóa và hàm f biểu diễn số lần xuất hiện
của từ khoá trong văn bản (bảng 1 l) Cách biểu diễn này gọi là biểu diễn văn
bản theo tần số xuất hiện
Trang 17Bảng 1.1 Văn bản biểu diễn theo từ khoá và tần số xuất hiện
Từ khoá Tần số xuất hiện
Một mô hình biểu diễn vector với hàm cho ra giá trị rời rạc với duy f
nhất hai giá trị đúng và sai (true và fale, hoặc 0 và l) gọi là mô hình Boolean Hàm tơng ứng với thuật ngữ f t i sẽ cho ra giá trị úng nếu và chỉ nếu thuật đ
ngữ t i xuất hiện trong văn bản đó
Mô hình Boolean đợc định nghĩa nh sau:
Giả sử có một cơ sở dữ liệu gồm m văn bản, D = {d1, d2, dm} Mỗi văn bản đợc biểu diễn dạng một vector gồm n thuật ngữ T = {t1, t2, … tn} Gọi W
= {wij} là ma trận trọng số, trong đó wij là giá trị trọng số của thuật ngữ ti
trong văn bản dj, Mô hình Boolean là mô hình đơn giản nhất đợc xác định nh sau:
wij = 1 nếu ti có mặt trong di
Trang 18I.4.2 Mô hình Tần số:
Trong mô hình tần số, ma trận W = {wij} đợc xác định dựa trên tần số xuất hiện của thuật ngữ ti trong văn bản dj hoặc tần số xuất hiện của thuật ngữ
ti trong toàn bộ cơ sở dữ liệu
Có ba phơng pháp:
- Phơng pháp dựa trên tần số thuật ngữ TF (Term Frequency)
- Phơng pháp dựa trên nghịch đảo tần số văn bản IDF (Inverse Document Frequency)
- Phơng pháp TF x LDF: kết hợp của phơng pháp TF và IDF
* Phơng pháp dựa trên tần số thuật ngữ TF (Term Frequency)
Các giá trị wij đợc tính dựa trên tần số xuất hiện của thuật ngữ trong văn bản Gọi fij là số lần xuất hiện của thuật ngữ ti trong văn bản dj khi đó wij
đợc tính bởi một trong ba công thức sau:
Ví dụ: khi văn bản xuất hiện nhiều thuật ngữ máy tính, điều đó có nghĩa
là văn bản đang xét chủ yêu liên quan đến lĩnh vực tin học
* Phơng pháp dựa trên nghịch đảo tần số văn bản IDF (Inverse Document frequency)
Trong phơng pháp này, giá trị wij đợc tính theo công thức sau:
Trang 19wij = log log( ) log( i )
i
h m
hi là số văn bản mà thuật ngữ ti xuất hiện
Trọng số wij trong công thức này đợc tính dựa trên độ quan trọng của thuật ngữ trong văn bản dj Nếu ti xuất hiện trong càng ít văn bản, điều đó có nghĩa là nếu nó xuất hiện trong dj trọng số của nó đối với văn bản dj càng lớn hay nó là điểm quan trọng để phân biệt văn bản dj với các văn bản khác và hàm lợng thông tin trong nó càng lớn Ví dụ: các thuật ngữ "tiền đạo", "hậu
vệ ", "thủ môn" chỉ xuất hiện trong các bài báo nói về lĩnh vực bóng đá Nh vậy, hàm lợng thông tin về bóng đá chứa đựng trong các thuật ngữ trên là rất lớn
i
ij h
m
f log log
và độ hiếm của thuật ngữ ti trong toàn bộ cơ sở dữ liệu
I.4.3 Phơng pháp xử lý vector tha:
Theo mô hình vector chuẩn, việc xử lý các phép toán trên vector sẽ phụ thuộc vào độ lớn của ma trận Wnm ở đây n là số lợng thuật ngữ hay số chiều của vector và m là số lợng văn bản có trong cơ sở dữ liệu Trên thực tế, số
lợng thuật ngữ và số văn bản có thể lên tới vài chục nghìn Khi đó số lợng
Trang 20phần tử trong ma trận Wnm sẽ lên đến con số hàng trăm triệu và việc lu trữ
ma trận Wnm sẽ tốn quá nhiều tài nguyên bộ nhớ đồng thời các phép toán trên vector sẽ rất phức tạp Để khắc phục vấn đề này có thể sử dụng kỹ thuật xử lý trên vector tha thay vì việc lu trữ và xử lý trên vector chuẩn
I.5 Phân loại Văn bản:
Vấn đề phân loại bao gồm quá trình của sự học những đặc trng liên quan hoặc các thuộc tính của một lớp và sử dụng chúng để xác định một mẫu mới thuộc về lớp đó Các mẫu đã đợc phân loại trớc đó đợc sử dụng nhằm xây dựng một bộ mô tả lớp đó Để xác định vị trí của một mẫu mới, nó đợc
so sánh với các bộ mô tả của tất cả các lớp đã đợc phân loại để chọn ra bộ giống nhất
Một tình huống thiết thực đa ra là một công ty tìm cách làm thế nào
để có thể bán đợc nhiều nhất một sản phẩm mới Họ dựa vào hành vi của ngời dùng tơng ứng với các lớp khách hàng quen thuộc, phân tích các yếu
tố cần quan tâm au đó, việc tiêu thụ các sản phẩm S mới của khách hàng sẽ
đợc đem so sánh với những gì đã biết để xác định khách hàng tiềm năng Tất nhiên là sự phân loại này có thể dùng cho các ứng dụng khác
Nhiệm vụ trớc mắt của ta là l…m cách nào để có thể phân các thông tin ra các lớp khác nhau Với sự sắp đặt này, cái nào ở đâu cho thích hợp nhất
sẽ cho phép ta tìm đợc các đối tợng tơng tự một cách dễ dàng Nó cũng cho phép chúng ta tìm kiếm một cách có hiệu quả nhất Luận văn này tập trung vào áp dụng một cách tiếp cận mới dựa vào kỹ thuật khai phá dựa đồ thị
để giải quyết vấn đề của sự phân loại Trong phạm vi luận văn này chúng ta đề cập đến sự phân loại văn bản mà cụ thể hơn là phân loại th điện tử
Phân loại văn bản là một lĩnh vực nghiên cứu nhằm phân loại tài liệu theo các lớp đợc định nghĩa trớc Các lớp đợc định nghĩa dựa vào một tập các tài liệu mẫu đã đợc phân loại, đợc sử dụng trong quá trình huấn luyện Các kỹ thuật học máy nhằm mục đích phân loại văn bản một cách tự động đã
Trang 21- Fuzzy Set Approach
- Rough Set Approach
Tất cả các cách tiếp cận phân loại văn bản đều rút những đặc tính đặc trng nhất từ những tài liệu mẫu để hình thành tập hợp huấn luyện cho lớp.Các kỹ thuật này sẽ đợc trình bày chi tiết ở chơng tiếp theo
I.6 Phân loại th điện tử:
Trong thời đại Internet, việc phân phối nhanh chóng các dữ liệu và thông báo tin tức một cách nhanh chóng đến với mọi ngời có thể thực hiện
đợc bằng cách dùng th điện tử Th điện tử có thể xem nh một dạng tài liệu đặc biệt và một vài thông tin liên quan tới nó nh từ đâu tới (from), tới
đâu (to), chủ đề (subject), đồng kính gửi (cc), các tệp đính kèm (attachments) nhằm tạo điều kiện thuậ lợi cho việc trao đổi thông tin giữa n các cá nhân cũng nh giữa các nhóm Nó là đợc xem nh là một phơng pháp nhanh, hiệu quả với chi phí thấp để có thể trao đổi với nhiều ngời một lúc Chính điều này cũng là nguyên nhân gây khó khăn cho việc trao đổi bằng th điện tử Đa số ngời dùng bị ngập chìm trong khối lợng th điện tử khổng lồ gửi đi và nhận đợc Ngời dùng phải bỏ ra rất nhiều thời gian và công sức để phân loại th điện tử vào các th mục tơng ứng với chúng
Các công cụ đa ra dùng để quản lý th điện tử, phân loại chúng để có thể sử dụng sau này Việc phân loại sai sẽ gây khó khăn rất nhiều cho việc sử dụng sau này Một khía cạnh trong việc quản lý th điện tử là sẽ phân loạichúng vào những th mục thích hợp một cách tự động với mức độ chính xác
Trang 22có thể chấp nhận đợc
Chắc chắn sự có mặt của một hệ thống tự động hoá phân loại sẽ làm giảm bớt thời gian phân loại, tìm kiếm và phục hồi các th điện tử khi cần dùng tới chúng
Nhìn chung, bất kỳ hệ thống quản lý th điện tử nào đều cần có tính năng phân loại để có thể quản lý các th điện tử một cách có hiệu quả Việc chỉ số hoá (tơng tự nh trong th viện) đợc sử dụng để phân loại th điện tử Một từ hoặc một chỉ số sẽ đợc tạo ra để định vị các th mục và các th điện
tử Từ đây ngời ta có thể quản lý một cách có hiệu quả các th điện tử trong thời đại internet Phân loại th điện tử có thể mang so sánh việc lập danh mục các quyển sách trong một th viện Một quyển sách (th điện tử) sẽ đợc đa vào một giá sách (th mục) thích hợp Nếu quyển sách (th điện tử ) bị để nhầm chỗ trong một giá sách sẽ gây khó khăn rất nhiều cho việc tìm kiếm nó khi cần, thậm chí có thể không tìm đợc
do trên các phơng pháp tiếp cận truyền thống nhằm phân loại văn bản không thể thoả mãn nhu cầu phân loại th điện tử Đó là cha kể đến tập mẫu dùng
để học trong môi trờng th điện tử thì thay đổi liên tục nhằm thích ứng với nhu cầu ngời dùng Một vài sự khác nhau cơ bản sẽ đợc trình bày một cách
cụ thể hơn dới đây:
- Phân loại th điện tử thủ công dựa vào sự u tiên cá nhân nên các tiêu chuẩn phân loại ở đây không đơn giản nh phân loại văn bản thông thờng
Trang 23Ví dụ, với những ngời dùng khác nhau có thể phân loại cùng một th điện
tử vào các th mục khác nhau dựa chính vào sự u tiên cá nhân của bản thân họ Với bất kỳ kỹ thuật phân loại nào cũng phải lu ý đến sự khác biệt này trong khi phân loại th điện tử
- Mỗi ngời dùng có ít nhất một hòm th riêng biệt và nó luôn luôn biến đổi Trong khi các th điện tử mới liên tục đợc thêm vào thì các th cũ cũng bị xoá đi Lợc đồ phân loại có khả năng thích ứng với sự thay đổi trên rất quan trọng
- Nội dung thông tin của các th điện tử thay đổi một cách đáng kể và vài yếu tố khác nh ngời gửi, nhóm địa chỉ ngời nhận, chủ đề th đóng một vai trò quan trọng trong sự phân loại Điều này trái ngợc với tài liệu thông thờng có nội dung phong phú nên dễ nhận ra chủ đề hoặc nlĩ h vực Với th
điện tử, chỉ riêng nội dung th có thể không đủ để cung cấp thông tin phân loại Đó là cha kể đến việc đa số các th điện tử không sử dụng các từ vựng cố định, tiêu chuẩn dẫn đến sự phân loại sẽ rất khó khăn
- Các đặc trng của từng lớp có thể thay đổi rất nhiều hoặc rất ít một cách tơng đối Một hệ thống phân loại cần thực hiện việc phân loại một cách tơng đối để ngời dùng có thể chấp nhận đợc mà lại không cần phải huấn luyện nhiều
- Các th điện tử trong một lớp có thể không đồng nhất Chúng có nội dung khác nhau và không có nhiều từ chung hoặc cùng một đề tài Chúng ta mô tả đặc điểm của các lớp này trên một phạm vi từ đồng nhất cho đến hỗn tạp Một lớp có thể mất tính đồng nhất khi số lợng th của nó quá nhiều làm cho nó khó có một chủ đề trọng tâm
- Các th điện tử đặc trng đại diện đợc phân loại vào trong những lớp con bên trong một lớp Sự khác nhau giữa các th điện tử đợc phân ra các lớp
có thể thuần tuý theo ngữ nghĩa hoặc hớng theo chủ đề Các lớp có thể
đợc tách ra để giữ đợc những đặc trng đại diện của lớp hoặc khi số
Trang 24lợng th trong lớp đó quá nhiều dẫn đến khó kiểm soát Đôi khi các lớp cũng đợc sát nhập lại
Bất kỳ phơng pháp tiếp cận phân loại th điện tử nào cũng đều phải xử
lý các sắc thái này mà trong phân loại văn bản thông thờng không có Các kỹ thuật phân loại văn bản có thể ứng dụng để phân loại th điện tử nhng cần phải điều chỉnh sao cho phù hợp để thích nghi với những sự khác nhau liệt kê
ở trên
I.6.2 Trình bày quan điểm và phơng pháp tiếp cận:
Hầu hết các kỹ thuật phân loại trớc kia đều dựa trên các từ khoá hoặc các từ thờng xuyên xuất hiện mà không để ý đến tầm quan trọng của sự liên quan giữa các từ
Trong luận văn này chúng ta đa ra một phơng pháp tiếp cận mới sử dụng kỹ thuật khai phá dựa đồ thị để phân loại th điện tử Phơng pháp tiếp cận dựa trên cơ sở các đại diện đặc trng, đại diện Các cấu trúc/các mẫu đợc rút ra từ các th điện tử đã đợc phân loại trớc đó và sau đó có thể sử dụng để phân loại một cách có hiệu quả các th điện tử mới nhận đợc Phơng pháp học có giám sát nhằm xác định các đặc trng đợc sử dụng đ phân loạiể các th mới Các th trong cùng một lớp có một sự phù hợp với nhau và sự giống nhau giữa chúng cung cấp khả năng để có thể phân biệt giữa lớp này với lớp
Đồng thời, ngời dùng tự tổ chức các th mục (lớp) chứa th điện tử dựa vào nội dung theo yêu cầu của bản thân họ, thể hiện sự u tiên cá nhân (để tạo ra các th mục và các th mục con trong các th mục đó)
Phơng pháp tiếp cận của chúng ta là căn cứ vào các th trong các th mục để phân loại dựa kỹ thuật khai phá dựa đồ thị Khái niệm đồ thị tơng đốicũng đợc đa ra (hoặc sự so sánh đồ thị đồng hình) để có thể nhóm lại các các th điện tử có cấu trúc tơng tự thay vì so sánh một cách chính xác tuyệt
đối
Tóm tại, phơng pháp tiếp cận của chúng ta sử dụng một lớp th điện tử
Trang 25để xác định mẫu đại diện và thờng xuyên xuất hiện nhằm xây dựng đồ thị tơng đối với một ngỡng giá trị xác định Khi ta nhận đợc một th điện tử mới nó sẽ đợc đa vào folder có các th mẫu phù hợp nhất với nó.
Trong cách tiếp cận của chúng ta, khái niệm phù hợp của đồ thị tơng
đối đợc sử dụng để đa ra những cấu trúc mô tả đặc điểm của lớp th điện tử Một vài các tham số khác cũng đợc xác định nh tần xuất xuất hiện mẫu đại diện, kích thớc trung bình của th điện tử
Điểm quan tâm chính của luận văn này là cách tiếp cận mới trong kỹ thuật khai phá dữ liệu Mặc dù kỹ thuật khai phá dữ liệu đã đợc biết đến từ lâu nhng việc áp dụng phơng pháp đồ thị trong khai phá dữ liệu thì khá là mới mẻ Phơng pháp tiếp cận mới này sẽ đợc áp dụng để phân loại th điện
tử
Trang 26
Chơng II - các kỹ thuật phân loại truyền thống
Khai phá dữ liệu văn bản đang đợc rất quan tâm và đã có nhiều phơng pháp đề xuất để giải quyết vấn đề nh kỹ thuật học máy, xác suất cơ bản Trong chơng này sẽ giới thiệu một tổng quan một cách ngắn gọn các phơng pháp tiếp cận truyền thống nhằm giải quyết vấn đề phân loại văn bản nói chung và th điện tử nói riêng Nhiều hệ thống phân loại th điện tử đã áp dụng các kỹ thuật này để tự động hóa việc sắp xếp những th điện tử
2.1 Kỹ thuật hân loại Văn bản P :
Trong phần này ta đa ra một cách nhìn tổng quan ngắn gọn các kỹ thuật phân loại văn bản truyền thống Ngời ta có thể phân loại văn bản một cách thủ công, hoặc sử dụng các phơng pháp phân loại tự động Để phân loại
đợc văn bản tự động thờng sử dụng các kỹ thuật học máy có giám sát (Supervised learning) Trong các kỹ thuật này, dữ liệu đợc chia thành hai phần: tập huấn luyện hay tập mẫu (training set) và tập kiểm thử (test set) Đầu tiên hệ thống sẽ đợc huấn luyện (học) thông qua tập mẫu, sau đó đánh giá hiệu quả của hệ thống thông qua tập kiểm thử
Các hệ thống phân loại văn bản nh vậy có thể ứng dụng trong việc phân loại tài liệu trong các th viện điện tử, phân loại bài viết trong các trang tin điện tử, hay phân loại công văn giấy tờ trong các công sở Một hệ thống phân loại tốt không những có thể thay thế con ngời mà thậm chí có thể đa ra những kết quả tốt hơn rất nhiều so với con ngời
Các kỹ thuật học máy nhằm mục đích phân loại văn bản một cách tự
động Sau đây chúng ta sẽ xem xét cụ thể một số các kỹ thuật thông dụng nhất
2.1.1 Thuật toán Support Vector Machines (SVMs):
Support Vector Machines là một phơng pháp học máy đợc Vapnik
Trang 27đa ra năm 1979 nhng nó mới trở , nên phổ biến từ thập niên trớc Nhiều kết quả nghiên cứu và thực nghiệm cho thấy SVMs hoàn toàn phù hợp với nhiệm
vụ phân loại và cho kết quả phân loại với độ chính xác cao Phơng pháp này
đa ra các biệt số mà bao gồm mạng neural và cây quyết định Chúng dựa trên nguyên tắc tối thiểu cấu trúc rủi ro và mục tiêu là tối giản cấu trúc có chấp nhận rủi ro để thay thế rủi ro đáng có
Ta hãy xem xét ở trờng hợp đơn giản nhất mà ở đó có không gian các véc tơ có thể tách tuyến tính Vấn đề ở đây là ta sẽ tìm thấy một mặt cắt tốt nhất để tách các mẫu thành hai loại có tính chất trái ngợc nhau Một bề mặt nh vậy đợc gọi là siêu phẳng (hyperplane) f(x) và nó bao gồm các đờng biên phù hợp sao cho bề mặt có thể dịch chuyển mà không ảnh hởng tới sự phân loại Với bài toán phân loại SVMs, một siêu phẳng phân chia d ữ liệu
đợc gọi là “tốt nhất”, nếu khoảng cách từ điểm dữ liệu gần nhất đến siêu
phẳng là lớn nhất Khi đó, việc xác định một tài liệu có thuộc phân loại c hay
không, tơng đơng với việc xét dấu của f(x)
s Một SVM tuyến tính có thể phân chia tốt nhất các mẫu thành hai loại trái ngợc nhau Lề là khoảng cách từ siêu phẳng đến phía phần tử dơng tính
và phần tử âm tính gần nhất Trên hình vẽ chỉ cho ta thấy siêu phẳng có thể dịch chuyển trong phạm vi của lề mà không gây ra sự phân loại sai
Trang 28Đờng nét liền trong hình vẽ chỉ ra rằng các siêu phẳng tách rời các mẫu thành hai miền, một miền gồm các mẫu dơng tính và một miền gồm các mẫu âm tính Đờng nét đứt là ranh giới mà siêu phẳng có thể dịch chuyển mà không làm sự phân loại bị sai đi Siêu phẳng trong hình vẽ có lề tối đa, các siêu phẳng khác sẽ có lề nhỏ hơn
Sao cho f(x) = sight{w * x + b} + 1 nếu yi= 1
- 1 nếu yi = 1 ∀(xi, yi) ∈ Tr (2.2) Những trờng hợp có thể tách ra tuyến tính có thể đợc khái quát hoá tới các trờng hợp tuyến tính không thể tách ra Việc thực hiện SVM cho bài s toán phân loại văn bản đã đợc nghiên cứu một cách kỹ lỡng và nó đa ra kết quả phân loại tốt hơn các phơng pháp phân loại khác Phơng pháp phân loại
SVM thực hiện tốt ngay cả trong trờng hợp dữ liệu tha thớt, trong thực tế s
sự phân loại chủ yếu phụ thuộc vào các vector hỗ trợ thuộc một lớp Nó có khả năng phân loại các dữ liệu có kích thớc lớn và rất ổn định
2.1.2 Thuật toán cây quyết định (Decision Tree):
Cây quyết định là một trong các phơng pháp đợc sử dụng rộng rãi nhất trong học quy nạp từ tập dữ liệu lớn Phơng pháp này đợc Mitchell đa
ra vào năm 1996, đây là phơng pháp học xấp xỉ các hàm mục tiêu có giá trị rời rạc Một u điểm của phơng pháp cây quyết định là có thể chuyển dễ
dàng sang dạng cơ sở tri thức là các luật Nếu - Thì (If - Then)
Trang 292.1 2 1 Mô tả cây quyết định:
Đầu ra của giải thuật là mô hình phân loại dới dạng một cây quyết
định Mô hình cây quyết định gồm các nút quyết định, các nhánh và các lá
- Mỗi lá gắn với một nhãn lớp,
- Mỗi nút quyết định mô tả một phép thử X nào đó,
- Mỗi nhánh của nút này tơng ứng với một khả năng của X
Hệ thống sẽ phân loại một tài liệu dj bằng phép thử đệ quy các trọng số
mà các khái niệm đợc gán nhãn cho các nút trong của cây với vector dj cho
đến khi đạt tới một nút lá, khi đó nhãn của nút lá này đợc gán cho tài liệu dj
Đa số các phơng pháp phân loại nh vậy sử dụng biểu diễn dữ liệu ở dạng nhị phân, các cây cũng đợc biển diễn dới dạng nhị phân
2.1.2 2 Xây dựng cây quyết định:
Quá trình xây dựng cây quyết định gồm hai bớc: phát triển cây và tỉa cây
Phát triển cây:
Bớc này sử dụng tập mẫu học đang xét để tạo ra một cây quyết định
tơng ứng Phần lớn các giải thuật hiện nay nh ID3, C4.5, SLIQ, SPRILT,
Trang 30Việc dựng cây đợc thực hiện một cách đệ quy theo phơng pháp Hunt Khi dùng tập mẫu học T có các nhãn lớp {Ci, ,Ck} để phát triển một cây quyết định có thể x y ra một trong 3 trờng hợp sau:ẩ
1 Mọi mẫu trong T đều thuộc lớp Cj Cây quyết định tơng ứng sẽ chỉ là một lá có nhãn lớp là Cj
2 T là tập rỗng Khi đó cây quyết định tơng ứng cũng chỉ là một lá Tuy nhiên để xác định nhãn lớp cho lá này , cần có thêm thông tin
3 Các phần tử của T thuộc nhiều lớp khác nhau Dùng một phép thử X
có các khả năng Oi, , On loại trừ lẫn nhau để tách tập T thành các tập con Ti, ,Tn
rời nhau Cây quyết định tơng ứng với T sẽ gồm một nút quyết định có nhãn X
và n nhánh tơng ứng Lặp lại quá trình trên với từng tập con Ti
Quá trình phát triển cây hoàn thành khi các mẫu tơng ứng với từng lá
đều thuộc cùng một lớp hoặc khi tập mẫu có quá ít phần tử không cần tiếp tục phân chia nữa
* Đánh giá một phép thử:
Việc đánh giá một thuộc tính để tách tập mẫu tơng ứng với nút đang xét thờng dựa trên một số tiêu chuẩn sau:
o Độ đo thông tin Entropy
o Tiêu chuẩn Gain (Gain criterion)
o Tiêu chuẩn tỉ số Gain Ratio (Gain ratio criterion)
Entropy:
lợng hết sức quan trọng trong lý thuyết thông tin Giả sử đa ra tập S có chứa cái mẫu ví dụ dơng (+) và các mẫu ví dụ âm ( ), nh vậy S đợc chia thành -hai lớp phân biệt Khi đó Enlropy của tập S đợc định nghĩa nh sau:
Entropy(S) ≡ p- + log2 p+ p- -log2 p- (2.3)
Trang 31trong đó p+ là phân bố của các ví dụ dơng trong S và p- là phân bố của các ví dụ trong S
Trong trờng hợp tổng quát, đại lợng Entropy đợc tínhnh sau:
trong đó, pi là phân bố của thuộc tính thứ i trong S Đại lợng Entropy
là đại lợng trong lý thuyết thông tin, tính theo bit, nên hàm logarithm đợc tính ở cơ số 2, do đó Entropy có thể lớn hơn 1 trong trờng hợp n > 2
Information Gain
Dựa trên Entropy, đại lợng đặc trng cho độ đồng nhất thông tin, ngời ta đa ra một độ đo xác định ảnh hởng của một thuộc tính của mẫu
trong việc phân loại, đại lợng đó gọi là Infor mation Gain
Gain(S,A) đợc xác định theo công thức sau:
Gain(S, A) ≡ Entropy(S) - ∑
∈ Values (A ) v
v
S
SEntropy(Sv) (2.5)
trong đó Values(A) là tập hợp các giá trị có thể của thuộc tính A, còn Sv
là tập con có thể của tập S gồm các phần tử có thuộc tính A = v, tức là
Sv={s∈S | A(s) = v}
Tiêu chuẩn tỉ số Gain Ratio:
Mặc dù tiêu chuẩn Gain cho kết quả khá tốt nhng nó lại không hề có tác dụng đối với phép thử có quá nhiều khả năng Để khắc phục hiện tợng
trên, ngời ta đa ra tiêu chuẩn tỉ số Gain Ratio xét thêm thông tin về sự phân
bố các khả năng của phép thử đó theo công thức:
split(S,A)
Trang 32Tỉa cây:
Cây thu đợc ở bớc trên sẽ đợc thu gọn và tinh chỉnh nhằm loại bỏ các yêu tố mang tính thống kê và các dữ liệu bị nhiễu trong tập mẫu đang xét Quá trình dựng cây đệ qui ở trên sẽ dừng khi tất cả các mẫu ở các tập con đều thuộc cùng một lớp, hoặc khi không còn phép thử nào cần xét nữa Tuy nhiên, cây thu đợc thờng rất phức tạp và chỉ phù hợp với tập mẫu ban đầu Khi áp dụng cây với các dữ liệu mới sẽ gây sai số lớn Bớc tỉa cây sẽ loại bỏ những cây con, những nhánh không phù hợp nhằm thu đợc một cây đơn giản và chính xác hơn
Có hai phơng pháp tỉa cây cơ bản là:
- Tỉa cây trớc (prepruning): Quá trình tỉa cây trớc đợc thực hiện ngay
trong khi dựng cây
- Tỉa cây sau (postpruning): Quá trình tỉa cây sau đợc thực hiện khi đã
có một cây quyết định hoàn chỉnh
Tỉa cây sau tuy gây ra tốn kém về mặt thời gian và bộ nhớ do tạo ra các nút d thừa, nhng cây thu đợc sau khi tỉa thờng đạt độ chính xác phân loạicao Vì những lý do trên, quá trình thu gọn cây thờng đợc thực hiện bằng các phơng pháp tỉa cây sau
2.1.3 Thuật toán k- NN (k Nearest neighbor): -
Trong Thuật toán k-NN, bản thân tên phơng pháp đã gợi ý giúp ta có
thể hình dung đợc phơng pháp này Thuật toán k-NNdựa trên phơng pháp học máy đợc biết đến nh thuật toán hiệu quả trong nhiều lĩnh vực, đặc biệt
là trong bài toán phân loại văn bản T tởng chính của thuật toán là tính toán
độ phù hợp của văn bản đang xét với từng chủ đề dựa trên “ ” k văn bản mẫu có
độ tơng tự gần nhất Mỗi tài liệu trong tập mẫu để huấn luyện có một vector
đặc trng chứa các thuộc tính quan trọng nhất của mẫu Đặc trng đợc chọn
ra có thể chỉ đơn giản là tần suất xuất hiện của thuật ngữ trong tài liệu Để
Trang 33phân loại một mẫu cha biết, ngời ta xây dựng vector đặc trng của nó và mang so sánh với các vector đặc trng của tất cả các mẫu đã đợc sử dụng trong quá trình huấn luyện
Trong ví dụ hình 2.4 sau đây biểu diễn việc khoanh vùng k văn bản gần nhất (k =5) với văn bản cần phân loại Từ k văn bản gần nhất tìm đợc cần đa
ra giải pháp để tìm phân loại phù hợp nhất với văn bản này
Hình 2.2 Minh hoạ việc khoanh vùng k văn bản gần nhất với k = 5
Khái niệm gần ở đây đợc hiểu là độ tơng tự hay độ giống nhau giữa các văn bản Có rất nhiều cách tính độ tơng tự (độ "gần") giữa hai văn bản trong đó phơng pháp đánh giá độ tơng tự dựa trên công thức cosine trọng số thờng đợc sử dụng rộng rãi nhất đây, văn bản đợc biểu diễn dới dạng ở vector
o T = {t1 2, t , … t } là tập hợp các thuật ngữ (hoặc các khái niệm), n
o W = {w1, w ,… w } vector 2 n trọng số trong đó wi là trọng số của thuật ngữ ti,
o Xét hai văn bản X = {x1, x2, ,xn} và Y = {y1, y2, ,yn} trong đó
xi, yi là tần số thuật ngữ ti xuất hiện tơng ứng trong văn bản X, Y Khi đó độ tơng tự giữa hai văn bản X và Y đợc tính theo công thức:
Phân loại 1 Phân loại 2 Văn bản cần phân
Trang 34t t t
T
t t t t t
w y w
x
w y w x Z
Y X ine Y
) (
) (
) , , ( cos ) ,
* Gán nhãn theo số đông:
Văn bản đang xét sẽ đợc gán nhãn cho chủ đề có nhiều văn bản gần văn bản đang xét nhất trong số “ ” k văn bản Về mặt trực quan, nên gán nhãn phân loại 2 cho văn bản d vì có 3 văn bản thuộc lớp này Nếu chọn theo văn bản gần nhất (gán nhãn chủ đề l) thì có thể lầm vì khả năng có nhiều hoặc tập mẫu chứa sai sót Nh vậy, cách đánh giá này đã khắc phục đợc lỗi trong tập mẫu, tuy nhiên lại vẫn cha đợc đánh giá cao trong một số tình huống
* Gán nhãn theo độ phù hợp chủ đề:
Phơng pháp này cần lần lợt tính độ phù hợp của văn bản d với từng chủ đề từ “ ” k văn bản đã lấy ra, sau đó gán nhán chủ đề phù hợp nhất cho d
Độ phù hợp giữa một văn bản d và chủ đề c đợc tính theo công thức:
Đây là phơng pháp thờng cho độ chính xác cao nhất
Thuật toán k-NN còn đợc sử dụng trong bài toán tìm kiếm văn bản và bài toán tóm tắt văn bản Hạn chế của phơng pháp này là khó thực hiện với dữ liệu lớn hoặc khi số mẫu tăng lên
Trang 352.1.4 Phơng pháp Bayes đơn giản hoá :
Phơng pháp này sử dụng xác suất làm cơ sở cho sự phân loại mà sự tham gia vào một lớp phụ thuộc vào xác suất sự kiện của lớp đó và xác suất sự kiện của các mẫu thuộc lớp đó Với nhiệm vụ phân loại văn bản, việc này có thể hiểu là sự phối hợp của xác suất xuất hiện của các thuật ngữ trong các lớp
đã có để dự đoán loại của một tài liệu Sử dụng quy tắc ayes chúng ta có thể B
dự đoán xác suất xảy ra của một loại Cj giữa một tập hợp những loại có thể xảy ra C = C1, C2, C3, , Cn và đợc đa cho một tập hợp những thuật ngữ T =
t1, t2, t3, , tn với
p ( C j | t1, t2, t3, , t n ), ∝ p ( t1, t2, t3, , t n |, C j ) p ( C j ) (2.8)
Phơng pháp Bayes đơn giản hoá bằng cách giả định các thuật ngữ độc lập (mặc dù không đúng là nh vậy), xác suất có điều kiện của một thuật ngữ xuất hiện trong một tài liệu thì độc lập với những xác suất có điều kiện của những thuật ngữ khác cũng xuất hiện trong tài liệu đó
j p t C C
T p
1 ( | ) )
j T p C t C C
p
1 ( | ) )
( )
|
Mặc dù sự chấp nhận này thờng không chính xác lắm, nhng nó đơn giản hoá đợc tính toán xác suất của các thuật ngữ (chúng có thể tính toán một cách độc lập) Sự phân loại bằng phơng pháp này m ng lại kết quả tốt và a
có thể mang so sánh với các kỹ thuật phức tạp nh cây quyết định và mạng neural
Trên đây chúng ta đã thảo luận về các kỹ thuật phân loại văn bản Chúng đã đợc nghiên cứu kỹ và những phơng pháp luận khác đã đợc áp dụng để giải quyết các nhiệm vụ trớc mắt của việc phân loại văn bản Sau
đây ta sẽ nói rõ công việc cần giải quyết trong kỹ thuật phân loại th điện tử
Trang 362.2 Kỹ thuật Phân loại th điện tử:
Nh ta đã nêu, phân loại th điện tử có những đặc thù nhất định, khác với sự phân loại văn bản thông thờng Các đặc trng nhất định của nó (ví dụ nh thông tin trong các đầu mục, vân vân) phải đợc xem xét để có thể phân loại một cách tốt nhất Nhiều kỹ thuật phân loại văn bản đã đợc áp dụng để phân loại th điện tử Dựa vào cơ chế sử dụng, các hệ thống phân loại th điện
tử có thể phân ra thành các loại nh sau:
- Sự phân loại dựa trên các qui tắc
- Sự phân loại dựa trên cơ sở sự phục hồi thông tin
- Phân loại theo kỹ thuật học máy
Sau đây, ta đa ta một vài hệ thống đã đợc phát triển để tự động hoá việc phân loại th điện tử
2.2.1 Sự phân loại dựa trên các qui tắc :
Các hệ thống phân loại th điện tử sử dụng các qui tắc phân loại để phân loại các th điện tử vào các folder Dựa trên các quy tắc đặt ra các hệ thống phân loại dựa vào nó đ phân loại những th điện tử vào trong những ể folder William Cohen sử dụng thuật toán học máy RIPPER đa ra “từ khóa nhằm phát hiện các quy tắc” để phân loại th điện tử RIPPER đề xuất phơng pháp học có khả năng phân loại tốt với tập dữ liệu lớn Cohen biện luận rằng việc sự dụng các từ khoá có thể mô tả tốt hơn các th điện tử cần phân loại
Hệ thống Ripper đợc mang so sánh với với phơng pháp IR truyền thống dựa trên TF IDF và cả hai đều đa ra các kết quả với độ chính xác nh nhau- Hệ thống phân loại i-ems (Intelligent Mail Sorter) phân loại th điện tử chỉ dựa trên thông tin và các từ khoá ngời gửi Ishmail là một hệ thống phân loại khác với Emacs mail program Rmail
Mặc dù các luật phân loại đa ra rất dễ hiểu nhng việc sử dụng tốt các luật này không dễ dàng chút nào Ví nh số lợng và đặc trng đầu vào các th điện tử ay đổi thì các qui tắc cũng phải sửa đổi theo cho phù hợp Điều th
Trang 37này khiến ngời dùng luôn phải xem xét và cập nhật các luật thờng xuyên Hầu hết các chơng trình quản lý th điện tử (ví dụ nh outlook, eudora) cho phép ngời sử dụng đa ra các luật để phân loại các th điện tử vào các folder Các qui tắc này phải đợc chỉ rõ một cách thủ công và có thể sử dụng các từ thuộc nhiều phạm trù khác nhau Vấn đề ở đây là việc chỉ ra và quản lý một cách thủ công khiến nó trở nên phức tạp và phải thờng xuyên thay đổi để chúng có thể hoạt động một cách bình thờng
2.2.2 Sự phân loại dựa trên cơ sở sự phục hồi thông tin:
Segal và Kephart sử dụng qui tắc phân loại TF - IDF trong hệ thống SwiftFile Hệ thống dự đoán đa ra 3 khả năng phân loại với mỗi Th điện tử
Hệ thống phân loại TF IDF dựa trên cơ sở kỹ thuật TF IDF trong việc – –phục hồi thông tin Với mỗi folder Th điện tử, các vectơ điều kiện thờng xuyên xuất hiện trong folder đó và hiếm khi xuất hiện trong các folder khác
đợc đa ra Việc lựa chọn một tập hợp các điều kiện nh vậy sẽ đa ra khả năng phân biệt giữa các folder Để phân loại th điện tử, khái niệm tần suất vector điều kiện đợc đa ra Nó so sánh với các vector TF – IDF của tất cả các folder và nó đợc đa vào folder có khoảng cách cosine là cực đại
2.2.3 Phân loại theo kỹ thuật học máy:
Các hệ thống phân loại trên cơ sở học máy đã đợc phát triển Hệ thống iFile của Rennie phân loại tốt th điện tử bằng cách sử dụng phơng pháp Bayes để huấn luyện nhiều lần, lặp lại Phơng pháp Bayes cũ ng đợc sử dụng trong hệ thống của Sahami et.al để lọc th rác một cách rất hiệu quả Hệ thống phân loại th điện tử Re:Agent của Boone đầu tiên sử dụng TF IDF để rút ra -các đặc tính hữu ích nhất của các th điện tử sau đó sử dụng chúng để huấn luyện và thiết lập các từ khoá Chúng sử dụng phơng pháp phân loại nearest neighbor và mạng neural để nhằm dự đoán và so sánh kết quả đạt đợc với tiêu chuẩn IR, sử dụng giải thuật TF-IDF
Trang 38Qua việc phân tích các kỹ thuật phân loại th điện tử, ta thấy các hệ thống phân loại cần phải đợc huấn luyện trong môi trờng th điện tử của ngời dùng Kiến thức học đợc sẽ đợc sử dụng để phân loại một cách tự
động các th điện tử vào các folder hoặc đa ra các gợi ý thông minh để ngời dùng lựa chọn
Các thông tin trong các đầu mục th điện tử rất quan trọng, các hệ thống phân loại dựa vào nó để phân loại
Trang 39Chơng III - kỹ thuật khai phá dựa trên đồ thị
Khai phá dữ liệu dựa trên đồ thị rất thích hợp với việc khai phá dữ liệu
có cấu trúc Ví dụ nh việc khai phá dữ liệu của các hỗn hợp hoá học, proteins, DNA, với cấu trúc vốn có của chúng Giữa các thực thể có cấu trúc này tồn tại các mối quan hệ phức tạp Ví dụ, mối ràng buộc đôi hoặc ba giữa các phần tử carbon và các phần tử khác trong một hỗn hợp hữu cơ phức tạp, cấu trúc hình trôn ốc của những phần tử DNA, có thể miêu tả một cách chính xác bằng cách sử dụng dạng đồ thị Sự miêu tả bằng đồ thị thông qua sự lựa chọn tự nhiên để đơn giản hoá các mối quan hệ phức tạp một cách trực quan đợc mang so sánh với các cách miêu tả khác Mối quan hệ giữa các đối tợng trong một cấu trúc phức tạp đợc trình một cách dễ hiểu và đại diện bằng các đồ thị Một điều rất quan trọng là biểu diễn bằng đồ thị giữ đợc cấu trúc ban đầu của chúng mà nó có thể bị mất đi nếu sử dụng các phơng pháp trình bày khác Với các đối tợng có hình dạng khác nhau đợc hình thành dựa trên một bảng Sự miêu tả giống nhau trên đồ thị cho phép trực quan hoá
và nhận ra một cách nhanh chóng chu kỳ xuất hiện các mẫu của các đối tợng
và sự sắp xếp đặc biệt của chúng
Trong hệ thống khai phá dữ liệu dựa trên đồ thị, thuật toán khai phá dữ liệu sử dụng đồ thị để biểu diễn tri thức; điều này có nghĩa cần chuyển đổi dữ liệu sang dạng đồ thị Không gian tìm kiếm của thuật toán khai phá dữ liệu dựa trên đồ thị bao gồm tất cả các đồ thị con có thể tìm thấy từ đồ thị đầu vào Vì vậy, không gian tìm kiếm tính theo hàm mũ, do đó thời gian chạy các giải thuật này, trừ phi có một ràng buộc nào đó, sẽ tuân theo hàm mũ