bộ giáo dục đào tạo Trờng đại học bách khoa hµ néi luận văn thạc sĩ khoa học Phân loại th điện tử kỹ thuật khai phá dựa đồ thị ngành: công nghệ thông tin hoàng träng vinh Ngêi híng dÉn khoa häc: PGS TS Ngun Thanh Thủ hµ néi 2005 Tai ngay!!! Ban co the xoa dong chu nay!!! 17057205109541000000 - Trang - Môc lục Danh mục chữ viết tắt Danh môc hình vẽ, đồ thị Mở đầu Ch¬ng I - tỉng quan I.1 Khai ph¸ liệu dạng văn bản: I.2 Một số khái niệm xử lý văn bản: I.2.1 Từ khoá, thuật ngữ khái niệm: I.2.2 Tõ dõng (Stop words): 10 I.2.3 Träng sè cđa tht ng÷: 10 I.2.4 §é liên quan văn bản: 11 I.3 Các toán xử lý văn bản: 11 I.3.1 Tìm kiếm văn (Text Retrieval): 11 I.3.2 Phân loại văn b¶n (Text Classification): 12 I.3.3 Phân nhóm văn (Text Clustering): 13 I.3.4 Tóm tắt văn (Text Summarization) 13 I.3.5 DÉn ®êng văn (Text Routing): 14 I.4 Phơng pháp biểu diễn văn theo mô hình không gian vector: 15 I.4.1 Mô hình Boolean: 16 I.4.2 Mô hình Tần số: 17 I.4.3 Phơng pháp xử lý vector tha: 18 I.5 Phân loại Văn bản: 19 I.6 Phân loại th ®iƯn tư: 20 I.6.1 Các khó khăn, thách thức đặt ra: 21 I.6.2 Tr×nh bày quan điểm phơng pháp tiếp cận: 23 Chơng II - kỹ thuật phân loại truyền thống 25 2.1 Kỹ thuật Phân loại Văn bản: 25 2.1.1 ThuËt to¸n Support Vector Machines (SVMs): 25 2.1.2 Thuật toán định (Decision Tree): 27 2.1.3 ThuËt to¸n k-NN (k - Nearest neighbor): 31 2.1.4 Phơng pháp Bayes đơn giản hoá: 34 2.2 Kỹ thuật Phân loại th ®iƯn tư: 35 2.2.1 Sự phân loại dựa qui t¾c: 35 2.2.2 Sự phân loại dựa sở phục hồi thông tin: 36 2.2.3 Phân loại theo kü thuËt häc m¸y: 36 Chơng III - kỹ thuật khai phá dựa đồ thị 38 3.1 Tổng quan: 39 3.2 HƯ thèng ph¸t hiƯn cÊu tróc SUBDUE: 42 3.2.1 Ph¸t hiƯn cÊu tróc con: 44 Hoàng Trọng Vinh Phân loại th điện tử kỹ thuật khai phá dựa đồ thị - Trang - 3.2.2 Nén đồ thị: 47 3.2.3 Đối sánh đồ thị tơng đối: 48 3.2.4 Tham sè cho luång ®iỊu khiĨn: 48 Chơng - Hệ thống phân loại th điện tử 52 4.1 Tæng quan: 52 4.1.1 TiỊn xư lý (Folder Pre-processing): 53 4.1.2 Biểu diễn Đồ thị (Graph Representation): 54 4.1.3 TrÝch xuÊt cÊu tróc (substructure extraction): 54 4.1.4 Lỵc bỏ cấu trúc đại diện (Representative Substructure Pruning): 54 4.1.5 Xếp loại cấu trúc đại diÖn (Representative Substructure Ranking): 55 4.1.6 Xö lý th điện tử đầu vào (Processing Input Email): 55 4.1.7 Sự Phân loại (Classification): 55 4.2 Quá trình tiền xö lý (Pre-processing): 55 4.2.1 Các đặc trng tiếng Việt: 56 4.2.2 Phân tách từ tiếng Việt dựa vào từ điển: 59 4.2.3 Lựa chọn mẫu cho đồ thị đầu vµo: 60 4.3 Biểu diễn Đồ thị (Graph Representation): 62 4.4 Tác động đặc trng lớp (Impact of Folder Characteristics): 64 4.4.1 KÝch thíc trung b×nh th điện tử giá trị ngỡng (Average email Size and Threshold) 65 4.4.2 Kích thớc trung bình th điện tư vµ folder so víi sè cÊu tróc (Average email Size & Folder Size Vs Number of Substructures) 66 4.4.3 KÝch thíc chïm tia (Beam Size) 67 4.4.4 KÝch thíc cÊu tróc tèi thiĨu (Substructure Size VsMinsize) 67 4.4.5 Lỵc bá cấu trúc xếp hạng (Substructure Pruning and Ranking) 67 4.5 Phân loại (Classification) 68 4.6 KÕt cài đặt thử nghiệm: 69 kết luận hớng phát triÓn tiÕp theo 75 5.1 KÕt luËn: 75 5.2 Hớng phát triển luận văn: 75 Tµi liƯu tham kh¶o 77 Hoàng Trọng Vinh Phân loại th điện tử kỹ thuật khai phá dựa đồ thị - Trang - Danh mục chữ viết tắt STT Chữ viết tắt Viết đầy đủ HTML Hyper Text Markup Language IDF Inverse Document frequency k-NN k - Nearest neighbor MDL Minimum Description Length Principle SVMs Support Vector Machines TF Term Frequency Hoµng Träng Vinh Phân loại th điện tử kỹ thuật khai phá dựa đồ thị - Trang - Danh mục hình vẽ, đồ thị Hình 1 Chức truy vấn trang web www.google.com.vn Hình Chức dẫn đờng văn trang web www.vnn.vn Hình 2.1 Siêu phẳng phân chia mẫu Hình 2.2 Minh hoạ việc khoanh vùng k văn gần với k = Hình 3.1 Cấu trúc đồ thị ban đầu Hình 3.2 Mở rộng cấu trúc theo tất cách Hình 3.3 Nén đồ thị cấu trúc tìm đợc Hình 3.4 Các cấu trúc tìm đợc cách mở rộng cấu trúc (a) Hình 3.5 Sử dụng đồ thị Gc để nén đồ thị đầu vào G Hình 3.6 Tệp đầu vào có nội dung danh sách đỉnh cạnh tơng ứng chúng Hình 3.7 Biểu diễn đồ thị đầu vào hệ thống SubDue Hình 3.8 Đồ thị tốt nhận đợc đầu hệ thống Hình 3.9 Tham số đầu hệ thống SubDue Hình 3.10 Cấu trúc tốt nhận đợc đầu hệ thống SubDue Hình 3.11 Biểu diễn đồ thị tốt đầu hệ thống SubDue Hình 4.1 Hệ thống phân loại th điện tử Hình 4.2 Các biểu diễn đồ thị Hình 4.3 Tệp đồ thị đầu vào Hình 4.4 Một th điện tử tiếng Việt Hình 4.5 Nguồn từ điển tiếng Việt sử dụng chơng trình Hình 4.6 Tệp đồ thị đầu vào Hình 4.7 Kết đầu hệ thống phát cấu trúc đồ thị Hình 4.8 Một th điện tử tiếng Việt không dấu Hoàng Trọng Vinh Phân loại th điện tử kỹ thuật khai phá dựa đồ thị - Trang - Mở đầu Sự phát triển vợt bậc công nghệ thông tin truyền thông nói chung Internet nói riêng dẫn đến khả chia sẻ, trao đổi thông tin cách nhanh chóng, xác Với lợng thông tin, tri thức khổng lồ nhận đợc từ Internet nói chung th điện tử (Email) nói riêng, ngời ta xử lý chúng phơng pháp thủ công cách có hiệu Từ nảy sinh nhu cầu xử lý thông tin văn cách tự động Trên giới đà có nhiều thành công lĩnh vực nghiên cứu xử lý văn nói chung th điện tử nói riêng phòng thí nghiệm hay viện nghiên cứu trờng đại học Mỹ, Pháp, Nhật Bản, Canada, Tuy nhiên thành công chủ yếu tập trung vào vấn đề nghiên cứu văn bản, th điện tử tiếng Anh, tiếng Pháp ngôn ngữ tơng đối đơn giản xử lý Trong đó, công cụ đà đợc xây dựng thực thành công lĩnh vực xử lý văn bản, th điện tử tiếng Việt Ngày nay, việc trao đổi thông tin, tri thức tiếng Việt qua Web, th điện tử nhu cầu tất yếu thiếu đợc, nhu cầu nghiên cứu xây dựng công cụ khai phá văn tiếng Việt nói chung th điện tử nói riêng đợc coi trọng Phân loại văn lĩnh vực nghiên cứu nhằm phân loại tài liệu theo lớp đợc định nghĩa trớc Các lớp đợc định nghĩa dựa vào tập tài liệu mẫu đà đợc phân loại, đợc sử dụng để huấn luyện Các kỹ thuật đợc sử dụng phơng pháp truyền thống nh học máy (Machine Learning), thống kê (Statistics), Các phơng pháp ứng dụng để phân loại th điện tử trang web Hầu hết phơng pháp rút từ khoá từ thờng xuyên xuất mà không để ý đến liên quan từ Sự liên quan chóng rÊt quan träng, nã cã thĨ chØ sù liên quan tài liệu bên lớp Các hệ Hoàng Trọng Vinh Phân loại th điện tử kỹ thuật khai phá dựa đồ thị - Trang - thống phân loại xác định mẫu khác nhằm phân loại tài liệu tơng tự Luận văn đề cập đến phơng pháp phân loại dựa kỹ thuật đồ thị Cách tiếp cận dựa sở cấu trúc đại diện mẫu đợc rút từ th điện tử mẫu đà đợc phân loại sau sử dụng để phân loại th điện tử nhận đợc sau Trong cách tiếp cận này, khái niệm đối sánh đồ thị tơng đối có tác dụng đa cấu trúc có khả mô tả đặc điểm nội dung lớp th điện tử Khả phân loại dựa tơng tự không hoàn toàn xác quan trọng phân loại, giống nh không bao giê cã hai mÉu hoµn toµn gièng ý tëng áp dụng để phân loại văn mà rộng rÃi Dới định hớng hớng dẫn tận tình thầy PGS TS Nguyễn Thanh Thuỷ, chọn toán xử lý cụ thể đặt luận văn Phân loại th điện tử kỹ thuật khai phá dựa đồ thị Hoàng Trọng Vinh Phân loại th điện tử kỹ thuật khai phá dựa đồ thị - Trang - Chơng I - tổng quan Việc quản lý liệu thông tin đà đợc quan tâm với nhu cầu nhằm rút yếu tố thiÕt u vµ quan träng cđa mét tµi liƯu vµ lu giữ để dụng cách có hiệu sau Sự cần thiết giống nh danh mơc cđa c¸c qun s¸ch th viƯn, giúp ta nhanh chóng tìm sách mà ta quan tâm Trong sách, mục lục để ta dễ dàng xác định đợc mục ta cần Internet chứa đựng lợng thông tin khổng lồ Việc xác định cần thiết cho ta quan trọng, giúp ta quản lý thông tin cách có hiệu lu trữ chúng để sử dụng sau Quản lý thông tin ngµy cã mét ý nghÜa to lín gièng nh công nghệ thông tin đà làm cách mạng liệu tri thức chia sẻ thông tin ngời phạm vi toàn cầu Một khối lợng thông tin khổng lồ nhận đợc thông qua việc truy cập Internet Cần có chế nhằm xác định thông tin thích hợp cần phải truy cập Một cách đơn giản ta lọc thông tin dựa vào có mặt mặt số từ khoá định Trong trờng hợp khác xác định thêm ngữ cảnh, thời điểm xuất để lọc thông tin phù hợp với thời điểm Ví dụ, cần rút tất thông tin ngôn ngữ Java mà cung cấp từ khoá Java kết đa có nhiều thông tin không thích hợp Vấn đề ta phải tìm cách cung cấp thông tin bổ sung để xác định thích hợp Trong trờng hợp khác, quản lý thông tin phức tạp nh việc tóm tắt thông tin Một chế khác cho quản lý thông tin phân loại, điều cho phép ta phân loại thông tin thành phạm trù khác tuỳ thuộc vào quan tâm ngời dùng Hoàng Trọng Vinh Phân loại th điện tử kỹ thuật khai phá dựa đồ thị - Trang - I.1 khai phá liệu dạng văn bản: Khai phá liệu văn lĩnh vực nghiên cứu phơng thức xử lý, tìm kiếm thông tin kho thông tin đợc lu trữ văn Trong dạng liệu thờng xuyên đợc sử dụng văn dạng đợc dùng phổ biến Văn có mặt nơi thờng xuyên hàng ngày Văn báo cáo, tài liệu kinh doanh, thông tin kinh tế, nghiên cứu khoa học, Dù việc áp dụng sở liệu vào hoạt động quản lý tổ chức phổ biến mang lại nhiều lợi ích lu trữ nh xử lý, nhng thực tế nhiều thông tin khác đợc lu trữ dới dạng văn Do đó, toán xử lý văn đà đợc đặt từ lâu toán quan trọng khai phá liệu Dữ liệu văn thờng đợc chia thành hai loại: - Dạng phi cấu trúc (unstructured): loại văn sử dụng hàng ngày đợc thể dới dạng ngôn ngữ tự nhiên ngời cấu trúc định dạng cụ thể Ví dụ: văn lu dới dạng tệp tin Microsoft Word - Dạng bán cấu trúc (semi - structured): loại văn không đợc lu trữ dới dạng ghi chặt chẽ mà đợc tổ chức qua thẻ đánh dấu để thể nội dung văn Ví dụ: Th điện tử, dạng tệp tin HTML, Tuỳ mục đích sử dụng cụ thể mà việc xử lý văn đợc thực dạng cấu trúc Ví dụ, với toán phân loại nội dung trang web dạng văn cần xử lý HTML Khai phá liệu văn (text mining) đợc định nghĩa trình tìm kiếm tri thức tập hợp bao gồm nhiều văn có nội dung đa dạng đợc thu thập từ nhiều nguồn khác Khai phá liệu văn lĩnh vực nghiên cứu rộng bao hàm nhiều lĩnh vực Hoàng Trọng Vinh Phân loại th điện tử kỹ thuật khai phá dựa đồ thị - Trang - I.2 Một số khái niệm xử lý văn bản: Trong xử lý văn nói chung th điện tử nói riêng có sử dụng số thuật ngữ cần đợc làm rõ để tiện cho việc sử dụng sau I.2.1 Từ khoá, thuật ngữ khái niệm: * Từ khoá (keyword): từ xuất văn dạng nguyên thể, có nghĩa từ điển VÝ dơ víi c©u sau: “Chương trình khuyến mại tặng miễn phí modem ADSL tổ chức song song đồng thời với chương trình khuyến mại tặng 30% cước hồ mạng + 20% giá thiết bị modem đầu cuối”, c¸c tõ khoá đợc tách Chng trỡnh, khuyn mại”, “miễn phí” “modem”, “ADSL”, “tổ chức”, “song song”, “đồng thời”, “30%”, “cước hoà mạng”, “20%”, “giá”, “thiết bị”, “đầu cui * Thuật ngữ (term): từ khoá có nghĩa liên quan đến lĩnh vực đó, ví dụ: "chuyển tiền nhanh", "tem th", "điện thoại" Các thuật ngữ thuộc lĩnh vực "Bu điện" * Khái niệm (concept): Là thuật ngữ nhng khái quát hoá, tổng quát hoá nhiều thuật ngữ kh¸c VÝ dơ: kh¸i niƯm "m¸y tÝnh" cã thĨ chøa đựng thuật ngữ khác "bàn phím", "chuột", "phần cứng", "phần mềm", "CPU", "ổ cứng", "Internet", "màn hình", "số hoá", từ có phần liên quan đến khái niệm "máy tính" Một khái niệm thờng liên quan đến dÃy thuật ngữ với mức độ khác Ví dụ: thuật ngữ "phần mềm" có mức độ liên quan đến khái niệm "tin học" nhiều so với thuật ngữ "số hoá" Một tiêu chuẩn để xem xét mức độ liên quan xác xuất đồng xuất cặp khái niệm - thuật ngữ văn Khi thuật ngữ "máy tính" xuất nhiều văn chứa thuật ngữ "tin học" có nghĩa độ liên quan cặp "tin học" - "máy tính" cao Một lý để giải thích suy luận mức độ thay đây, không hiểu đơn giống nh thay - hai từ (ví dụ: "loài Hoàng Trọng Vinh Phân loại th điện tử kỹ thuật khai phá dựa đồ thị