1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thị

79 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 79
Dung lượng 1,17 MB

Nội dung

bộ giáo dục đào tạo Trường đại học bách khoa hµ néi luận văn thạc sĩ khoa học Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị ngành: công nghệ thông tin hoàng träng vinh Ng­êi h­íng dÉn khoa häc: PGS TS Ngun Thanh Thủ hµ néi 2005 - Trang - Mơc lục Danh mục chữ viết tắt Danh môc hình vẽ, đồ thị Mở đầu Ch­¬ng I - tỉng quan I.1 Khai ph¸ liệu dạng văn bản: I.2 Một số khái niệm xử lý văn bản: I.2.1 Từ khoá, thuật ngữ khái niệm: I.2.2 Tõ dõng (Stop words): 10 I.2.3 Träng sè cđa tht ng÷: 10 I.2.4 §é liên quan văn bản: 11 I.3 Các toán xử lý văn bản: 11 I.3.1 Tìm kiếm văn (Text Retrieval): 11 I.3.2 Phân loại văn b¶n (Text Classification): 12 I.3.3 Phân nhóm văn (Text Clustering): 13 I.3.4 Tóm tắt văn (Text Summarization) 13 I.3.5 DÉn ®­êng văn (Text Routing): 14 I.4 Phương pháp biểu diễn văn theo mô hình không gian vector: 15 I.4.1 Mô hình Boolean: 16 I.4.2 Mô hình Tần số: 17 I.4.3 Phương pháp xử lý vector th­a: 18 I.5 Phân loại Văn bản: 19 I.6 Phân loại thư ®iƯn tư: 20 I.6.1 Các khó khăn, thách thức đặt ra: 21 I.6.2 Tr×nh bày quan điểm phương pháp tiếp cận: 23 Chương II - kỹ thuật phân loại truyền thống 25 2.1 Kỹ thuật Phân loại Văn bản: 25 2.1.1 ThuËt to¸n Support Vector Machines (SVMs): 25 2.1.2 Thuật toán định (Decision Tree): 27 2.1.3 ThuËt to¸n k-NN (k - Nearest neighbor): 31 2.1.4 Phương pháp Bayes đơn giản hoá: 34 2.2 Kỹ thuật Phân loại th­ ®iƯn tư: 35 2.2.1 Sự phân loại dựa qui t¾c: 35 2.2.2 Sự phân loại dựa sở phục hồi thông tin: 36 2.2.3 Phân loại theo kü thuËt häc m¸y: 36 Chương III - kỹ thuật khai phá dựa đồ thị 38 3.1 Tổng quan: 39 3.2 HƯ thèng ph¸t hiƯn cÊu tróc SUBDUE: 42 3.2.1 Ph¸t hiƯn cÊu tróc con: 44 Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang - 3.2.2 Nén đồ thị: 47 3.2.3 Đối sánh đồ thị tương đối: 48 3.2.4 Tham sè cho luång ®iỊu khiĨn: 48 Chương - Hệ thống phân loại thư điện tử 52 4.1 Tæng quan: 52 4.1.1 TiỊn xư lý (Folder Pre-processing): 53 4.1.2 Biểu diễn Đồ thị (Graph Representation): 54 4.1.3 TrÝch xuÊt cÊu tróc (substructure extraction): 54 4.1.4 L­ỵc bỏ cấu trúc đại diện (Representative Substructure Pruning): 54 4.1.5 Xếp loại cấu trúc đại diÖn (Representative Substructure Ranking): 55 4.1.6 Xö lý thư điện tử đầu vào (Processing Input Email): 55 4.1.7 Sự Phân loại (Classification): 55 4.2 Quá trình tiền xö lý (Pre-processing): 55 4.2.1 Các đặc trưng tiếng Việt: 56 4.2.2 Phân tách từ tiếng Việt dựa vào từ điển: 59 4.2.3 Lựa chọn mẫu cho đồ thị đầu vµo: 60 4.3 Biểu diễn Đồ thị (Graph Representation): 62 4.4 Tác động đặc trưng lớp (Impact of Folder Characteristics): 64 4.4.1 KÝch th­íc trung b×nh th­ điện tử giá trị ngưỡng (Average email Size and Threshold) 65 4.4.2 Kích thước trung bình thư điện tư vµ folder so víi sè cÊu tróc (Average email Size & Folder Size Vs Number of Substructures) 66 4.4.3 KÝch th­íc chïm tia (Beam Size) 67 4.4.4 KÝch th­íc cÊu tróc tèi thiĨu (Substructure Size VsMinsize) 67 4.4.5 L­ỵc bá cấu trúc xếp hạng (Substructure Pruning and Ranking) 67 4.5 Phân loại (Classification) 68 4.6 KÕt cài đặt thử nghiệm: 69 kết luận hướng phát triÓn tiÕp theo 75 5.1 KÕt luËn: 75 5.2 Hướng phát triển luận văn: 75 Tµi liƯu tham kh¶o 77 Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang - Danh mục chữ viết tắt STT Chữ viết tắt Viết đầy đủ HTML Hyper Text Markup Language IDF Inverse Document frequency k-NN k - Nearest neighbor MDL Minimum Description Length Principle SVMs Support Vector Machines TF Term Frequency Hoµng Träng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang - Danh mục hình vẽ, đồ thị Hình 1 Chức truy vấn trang web www.google.com.vn Hình Chức dẫn đường văn trang web www.vnn.vn Hình 2.1 Siêu phẳng phân chia mẫu Hình 2.2 Minh hoạ việc khoanh vùng k văn gần với k = Hình 3.1 Cấu trúc đồ thị ban đầu Hình 3.2 Mở rộng cấu trúc theo tất cách Hình 3.3 Nén đồ thị cấu trúc tìm Hình 3.4 Các cấu trúc tìm cách mở rộng cấu trúc (a) Hình 3.5 Sử dụng đồ thị Gc để nén đồ thị đầu vào G Hình 3.6 Tệp đầu vào có nội dung danh sách đỉnh cạnh tương ứng chúng Hình 3.7 Biểu diễn đồ thị đầu vào hệ thống SubDue Hình 3.8 Đồ thị tốt nhận đầu hệ thống Hình 3.9 Tham số đầu hệ thống SubDue Hình 3.10 Cấu trúc tốt nhận đầu hệ thống SubDue Hình 3.11 Biểu diễn đồ thị tốt đầu hệ thống SubDue Hình 4.1 Hệ thống phân loại thư điện tử Hình 4.2 Các biểu diễn đồ thị Hình 4.3 Tệp đồ thị đầu vào Hình 4.4 Một thư điện tử tiếng Việt Hình 4.5 Nguồn từ điển tiếng Việt sử dụng chương trình Hình 4.6 Tệp đồ thị đầu vào Hình 4.7 Kết đầu hệ thống phát cấu trúc đồ thị Hình 4.8 Một thư điện tử tiếng Việt không dấu Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang - Mở đầu Sự phát triển vượt bậc công nghệ thông tin truyền thông nói chung Internet nói riêng dẫn đến khả chia sẻ, trao đổi thông tin cách nhanh chóng, xác Với lượng thông tin, tri thức khổng lồ nhận từ Internet nói chung thư điện tử (Email) nói riêng, người ta xử lý chúng phương pháp thủ công cách có hiệu Từ nảy sinh nhu cầu xử lý thông tin văn cách tự động Trên giới đà có nhiều thành công lĩnh vực nghiên cứu xử lý văn nói chung thư điện tử nói riêng phòng thí nghiệm hay viện nghiên cứu trường đại học Mỹ, Pháp, Nhật Bản, Canada, Tuy nhiên thành công chủ yếu tập trung vào vấn đề nghiên cứu văn bản, thư điện tử tiếng Anh, tiếng Pháp ngôn ngữ tương đối đơn giản xử lý Trong đó, công cụ đà xây dựng thực thành công lĩnh vực xử lý văn bản, thư điện tử tiếng Việt Ngày nay, việc trao đổi thông tin, tri thức tiếng Việt qua Web, thư điện tử nhu cầu tất yếu thiếu được, nhu cầu nghiên cứu xây dựng công cụ khai phá văn tiếng Việt nói chung thư điện tử nói riêng coi trọng Phân loại văn lĩnh vực nghiên cứu nhằm phân loại tài liệu theo lớp định nghĩa trước Các lớp định nghĩa dựa vào tập tài liệu mẫu đà phân loại, sử dụng để huấn luyện Các kỹ thuật sử dụng phương pháp truyền thống học máy (Machine Learning), thống kê (Statistics), Các phương pháp ứng dụng để phân loại thư điện tử trang web Hầu hết phương pháp rút từ khoá từ thường xuyên xuất mà không để ý đến liên quan từ Sự liên quan chóng rÊt quan träng, nã cã thĨ chØ sù liên quan tài liệu bên lớp Các hệ Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang - thống phân loại xác định mẫu khác nhằm phân loại tài liệu tương tự Luận văn đề cập đến phương pháp phân loại dựa kỹ thuật đồ thị Cách tiếp cận dựa sở cấu trúc đại diện mẫu rút từ thư điện tử mẫu đà phân loại sau sử dụng để phân loại thư điện tử nhận sau Trong cách tiếp cận này, khái niệm đối sánh đồ thị tương đối có tác dụng đưa cấu trúc có khả mô tả đặc điểm nội dung lớp thư điện tử Khả phân loại dựa tương tự không hoàn toàn xác quan trọng phân loại, giống không bao giê cã hai mÉu hoµn toµn gièng ý t­ëng áp dụng để phân loại văn mà rộng rÃi Dưới định hướng hướng dẫn tận tình thầy PGS TS Nguyễn Thanh Thuỷ, chọn toán xử lý cụ thể đặt luận văn Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang - Chương I - tổng quan Việc quản lý liệu thông tin đà quan tâm với nhu cầu nhằm rút yếu tố thiÕt u vµ quan träng cđa mét tµi liƯu vµ lưu giữ để dụng cách có hiệu sau Sự cần thiết giống nh­ danh mơc cđa c¸c qun s¸ch th­ viƯn, giúp ta nhanh chóng tìm sách mà ta quan tâm Trong sách, mục lục để ta dễ dàng xác định mục ta cần Internet chứa đựng lượng thông tin khổng lồ Việc xác định cần thiết cho ta quan trọng, giúp ta quản lý thông tin cách có hiệu lưu trữ chúng để sử dụng sau Quản lý thông tin ngµy cã mét ý nghÜa to lín gièng công nghệ thông tin đà làm cách mạng liệu tri thức chia sẻ thông tin người phạm vi toàn cầu Một khối lượng thông tin khổng lồ nhận thông qua việc truy cập Internet Cần có chế nhằm xác định thông tin thích hợp cần phải truy cập Một cách đơn giản ta lọc thông tin dựa vào có mặt mặt số từ khoá định Trong trường hợp khác xác định thêm ngữ cảnh, thời điểm xuất để lọc thông tin phù hợp với thời điểm Ví dụ, cần rút tất thông tin ngôn ngữ Java mà cung cấp từ khoá Java kết đưa có nhiều thông tin không thích hợp Vấn đề ta phải tìm cách cung cấp thông tin bổ sung để xác định thích hợp Trong trường hợp khác, quản lý thông tin phức tạp việc tóm tắt thông tin Một chế khác cho quản lý thông tin phân loại, điều cho phép ta phân loại thông tin thành phạm trù khác tuỳ thuộc vào quan tâm người dùng Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang - I.1 khai phá liệu dạng văn bản: Khai phá liệu văn lĩnh vực nghiên cứu phương thức xử lý, tìm kiếm thông tin kho thông tin lưu trữ văn Trong dạng liệu thường xuyên sử dụng văn dạng dùng phổ biến Văn có mặt nơi thường xuyên hàng ngày Văn báo cáo, tài liệu kinh doanh, thông tin kinh tế, nghiên cứu khoa học, Dù việc áp dụng sở liệu vào hoạt động quản lý tổ chức phổ biến mang lại nhiều lợi ích lưu trữ xử lý, thực tế nhiều thông tin khác lưu trữ dạng văn Do đó, toán xử lý văn đà đặt từ lâu toán quan trọng khai phá liệu Dữ liệu văn thường chia thành hai loại: - Dạng phi cấu trúc (unstructured): loại văn sử dụng hàng ngày thể dạng ngôn ngữ tự nhiên người cấu trúc định dạng cụ thể Ví dụ: văn lưu dạng tệp tin Microsoft Word - Dạng bán cấu trúc (semi - structured): loại văn không lưu trữ dạng ghi chặt chẽ mà tổ chức qua thẻ đánh dấu để thể nội dung văn Ví dụ: Thư điện tử, dạng tệp tin HTML, Tuỳ mục đích sử dụng cụ thể mà việc xử lý văn thực dạng cấu trúc Ví dụ, với toán phân loại nội dung trang web dạng văn cần xử lý HTML Khai phá liệu văn (text mining) định nghĩa trình tìm kiếm tri thức tập hợp bao gồm nhiều văn có nội dung đa dạng thu thập từ nhiều nguồn khác Khai phá liệu văn lĩnh vực nghiên cứu rộng bao hàm nhiều lĩnh vực Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang - I.2 Một số khái niệm xử lý văn bản: Trong xử lý văn nói chung thư điện tử nói riêng có sử dụng số thuật ngữ cần làm rõ để tiện cho việc sử dụng sau I.2.1 Từ khoá, thuật ngữ khái niệm: * Từ khoá (keyword): từ xuất văn dạng nguyên thể, có nghĩa từ điển VÝ dơ víi c©u sau: “Chương trình khuyến mại tặng miễn phí modem ADSL tổ chức song song đồng thời với chương trình khuyến mại tặng 30% cước hồ mạng + 20% giá thiết bị modem đầu cuối”, c¸c tõ khoá tách Chng trỡnh, khuyn mại”, “miễn phí” “modem”, “ADSL”, “tổ chức”, “song song”, “đồng thời”, “30%”, “cước hoà mạng”, “20%”, “giá”, “thiết bị”, “đầu cui * Thuật ngữ (term): từ khoá có nghĩa liên quan đến lĩnh vực đó, ví dụ: "chuyển tiền nhanh", "tem thư", "điện thoại" Các thuật ngữ thuộc lĩnh vực "Bưu điện" * Khái niệm (concept): Là thuật ngữ khái quát hoá, tổng quát hoá nhiều thuật ngữ kh¸c VÝ dơ: kh¸i niƯm "m¸y tÝnh" cã thĨ chøa đựng thuật ngữ khác "bàn phím", "chuột", "phần cứng", "phần mềm", "CPU", "ổ cứng", "Internet", "màn hình", "số hoá", từ có phần liên quan đến khái niệm "máy tính" Một khái niệm thường liên quan đến dÃy thuật ngữ với mức độ khác Ví dụ: thuật ngữ "phần mềm" có mức độ liên quan đến khái niệm "tin học" nhiều so với thuật ngữ "số hoá" Một tiêu chuẩn để xem xét mức độ liên quan xác xuất đồng xuất cặp khái niệm - thuật ngữ văn Khi thuật ngữ "máy tính" xuất nhiều văn chứa thuật ngữ "tin học" có nghĩa độ liên quan cặp "tin học" - "máy tính" cao Một lý để giải thích suy luận mức độ thay đây, không hiểu đơn giống thay - hai từ (ví dụ: "loài Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang 64 - v th­_®iƯn_tư v ptic@hn.vnn.vn v vinhht@hn.vnn.vn v miễn_phí v chương_trình v modem v adsl v khuyÕn_m¹i u from u to u subject u contains u contains u contains u contains Hình 4.3 Tệp đồ thị đầu vào 4.4 Tác động đặc trưng lớp (Impact of Folder Characteristics): Mục đích xác định cấu trúc đại diện folder đà cho Để đạt điều này, ta phải chọn số tham số đầu vào cho hệ thống phát cấu trúc SubDue (ví dụ chùm tia, giá trị ngưỡng) Chính thân folder phân loại cần sử dụng để đưa tham số đặc trưng cho chúng Với cách này, cấu trúc phát sinh thay đổi tuỳ theo folder mà không vào tập hợp tham số cố định Các tham số cần tinh chỉnh để đưa đặc trưng folder cách xác Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang 65 - Việc liên tục thêm, xoá di chuyển thư điện tử liên tục xảy theo thời gian Thư mục thư mục khác cần xác định số lượng rõ tham số đầu vào để đảm bảo cho hệ thống phát cấu trúc đưa cấu trúc tốt Những tham số giúp cho hệ thống phát cấu trúc phản ánh tốt nội dung folder Sau ta xem xét tham số đặc trưng then chốt lớp thư điện tử 4.4.1 Kích thước trung bình thư điện tử giá trị ngưỡng (Average email Size and Threshold) Như đà trình bày mục trước, giá trị ngưỡng xác định tính tương đối qua trình phát cấu trúc Đối sánh đồ thị tương đối, giá trị ngưỡng xác định số đỉnh cạnh thay đổi cấu trúc Số xác định công thức: (số đỉnh + số cạnh) x giá trị ngưỡng (4.1) Mỗi thư điện tử folder có kích thước khác (thậm chí sau trình tiền xử lý), chóng ta sư dơng kÝch th­íc th­ trung b×nh điện tử đặc trưng folder Ta nhận thấy với giá trị ngưỡng thấp cho phép đối sánh cấu trúc ®đ víi mét sè l­ỵng lín th­ ®iƯn tư Tham số đưa lượng hợp lý tương đối Điều đảm bảo xác định cấu trúc tương tự Với thư điện tử có nội dung số đỉnh cho đồ thị đầu vào cần có giá trị ngưỡng lớn cho việc đối sánh đồ thị tương đối Sử dụng kích thước thư điện tử lớp giúp ta xác định giá trị ngưỡng cho việc đối sánh đồ thị tương đối Cho i số cạnh chia cho biến đổi nhÃn đỉnh, giá trị ngưỡng xác định công thức sau: giá trị ngưỡng = i Kích thước trung bình thư điện tử (4.2) đây, đà giải thích kích thước trung bình thư điện tử Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang 66 - tham số ảnh hưởng tới phát mẫu sử dụng để đưa giá trị ngưỡng nhằm cho phép số lượng hợp lý sai khác cấu trúc Giá trị i không lớn thư điện tử khác lại đồng Giá trị i lớn 10 không thích hợp với kích thước trung bình thư điện tử lớn 4.4.2 Kích thước trung bình thư điện tư vµ folder so víi sè cÊu tróc (Average email Size & Folder Size Vs Number of Substructures) Sè cấu trúc lớn sử dụng lại hƯ thèng ph¸t hiƯn cÊu tróc SubDue gåm c¸c cấu trúc tốt giới hạn tham số nsubs Để bảo đảm tập hợp đại diện gồm có cấu trúc mô tả đặc điểm folder tìm hệ thống phát cấu trúc đưa đặc trưng Folder NÕu kÝch th­íc trung b×nh lín th× sè cÊu tróc phải lớn Tương tự vậy, số lượng thư điện tử Folder lớn số đồ thị mô tả đặc điểm Folder lớn Cả hai đặc trưng quan trọng cần phải tính đến để xác định số cấu trúc phát sinh Folder đà cho Sự phân tích cách kỹ cho thấy số cấu trúc phụ thuộc nhiều vào kích thước trung bình thư điện tử số lượng thư điện tử Folder đà cho Điều việc tăng kích thước Folder dẫn đến tăng thêm cấu trúc số cấu trúc phân biệt rõ ràng đặc điểm Folder Trong việc tăng kích thước trung bình thư điện tử làm tăng thêm số cấu trúc cách đáng kể Chúng ta tÝnh sè cÊu tróc b»ng c¸ch sư dơng hai kích thước folder kích thước thư điện tử với mức độ quan trọng khác phương tr×nh sau: nsubs = w1 x Fs + w2 x Avgms, w1 < w2 (4.3) Fs kích th­íc cđa folder vµ w1 lµ träng sè cđa folder tương tự Avgms kích thước trung bình thư ®iƯn tư vµ w2 lµ träng sè cđa kÝch th­íc trung bình thư điện tử Giá trị w1 w2 chọn 0,5 0,75 kích thước Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang 67 - trung bình thư điện tử có tác động lớn kích thước Folder 4.4.3 KÝch th­íc chïm tia (Beam Size) Trong chïm tia xác định số lượng cấu trúc tốt giữ lại cuối lần lặp Một giá trị thấp chùm tia dẫn đến làm vài cấu trúc đại diện Vì kích th­íc chïm tia nhá nªn mét sè cÊu tróc hội lặp lại vòng lặp giải thuật Từ sinh nguy tiềm tàng cấu trúc cần quan tâm bị Tương tự vậy, giá trị cao chùm tia giữ lại cấu trúc thể tốt cho vòng lặp thời hệ thống phát cấu trúc Đồng thời, cấu trúc không đáng quan tâm giữ lại Trong tất trường hợp với giá trị chùm tia thích hợp 4.4.4 Kích thước cấu trúc tèi thiĨu (Substructure Size VsMinsize) Tõ nh÷ng biĨu diƠn đồ thị hình 4.2.b, ta suy luËn r»ng cÊu tróc nhá nhÊt sÏ chøa tèi thiểu đỉnh Đó root, header hai số to, from, subject Các cấu trúc nhỏ giống tất th­ ®iƯn tư Folder ®ang xÐt cịng nh­ tÊt Folder khác Bởi ta bắt buộc phải chän kÝch th­íc tèi thiĨu cđa c¸c cÊu tróc Việc chọn số đỉnh bất lợi cho trình phân loại Lý luận tương tự vậy, ta thấy với biểu diễn đồ thị hình 4.2.a ta chọn kích thước tối thiểu 4.4.5 Lược bỏ cấu trúc xếp hạng (Substructure Pruning and Ranking) SubDue xác định số lượng lớn cấu trúc với tần suất xuất chúng Có thể chọn phương án nhằm thay cho việc giữ lại tất cấu trúc Tuy nhiên, việc giữ lại vài cấu trúc với thay đổi có tần suất xuất không phù hợp với phân loại đặc biệt việc đối sánh đồ thị tương đối sử dụng Từ cấu trúc hệ thống phát đồ thị đưa cần xác định cấu trúc đại diện, đại diện Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang 68 - cho folder Điều thực việc sử dụng đo đạc để xác định cấu trúc miêu tả tốt thư mục xem xét Nhờ việc đối sánh đồ thị tương đối, vài cấu trúc tương tự cấu trúc khác lược bỏ, cấu trúc có khác với đặc trưng đà có giữ lại Các cấu trúc xếp hạng dựa vào tần suất xuất hiện, kích thước trung bình cđa th­ ®iƯn tư, sè th­ ®iƯn tư folder kích thước cấu trúc Các cấu trúc với kích thước so sánh kích thước trung bình thư điện tử Giá trị xếp hạng cấu trúc xác định công thức sau: Rs = Ss f ì s Avg ms N (4.4) Ss lµ kÝch th­íc cđa cÊu tróc fs số tần suất xuất cấu trúc Avgms kích thước trung bình thư điện tử N số thư điện tử folder Sự xếp hạng quan trọng thư điện tử đầu vào có cấu trúc xếp hạng cao folder thứ xếp hạng trung bình folder thứ hai Trong trường hợp thư điện tử cần phải xếp vào folder thứ 4.5 phân loại (Classification) Các cấu trúc tốt xếp hạng để thể đại diện Râ rµng, sè cÊu tróc tèt nhÊt nµy theo đổi với folder kích thước trung bình thư điện tử Xếp hạng cấu trúc sử dụng để phân loại thư điện tử Mỗi thư điện tử đầu vào so sánh với cấu trúc đại diện đà xếp hạng tất folder Đối sánh đồ thị tương đối sử dụng để so sánh thư điện tử đầu vào với cấu trúc đại diện xác định trước Thư điện tử xếp vào folder phù hợp mà xếp hạng cao Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang 69 - 4.6 kết cài đặt thử nghiệm: Trong khuôn khổ luận văn đà thực số thử nghiệm để đánh giá khả phân loại thư điện tử tiếng Việt công cụ tìm kiếm kỹ thuật khai phá dựa đồ thị SubDue hệ ®iỊu hµnh Lilux CMC (mét hƯ ®iỊu hµnh m· ngn mở hỗ trợ tiếng Việt chuẩn Unicode) Khoảng 100 thư điện tử nhận hình 4.4 ta đưa vào folder theo ưu tiên cá nhân Các thư mẫu sử dụng để huấn luyện Hình 4.4 Một thư điện tử tiếng Việt Trong qu¸ thư nghiƯm, ta míi chØ xư lý c¸c th­ điện tử gõ theo bảng mà chuẩn Unicode 16 bit Với thư điện tử sử dụng chuẩn khác phải tiến hành đổi mà font cho phù hợp Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang 70 - Trong trình tách từ tiếng Việt ta sử dụng dấu _ để nối âm tiết thành từ để hệ thống SubDue phân biệt từ Từ điển sử dụng để tách từ tiếng Việt bao gồm 30 nghìn từ vựng download từ nguồn http://www.informatik.uni-leipzig.de/~duc/Dict/index.html) Hình 4.5 Nguồn từ điển tiếng Việt sử dụng chương trình Đầu vào hệ thống phát cấu trúc SubDue tệp có dòng mô tả đồ thị hình 4.6 tệp ta liệt kê tất đỉnh đồ thị đầu vào, sau đến dòng mô tả mối quan hệ đỉnh Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa ®å thÞ - Trang 71 - v th­_®iƯn_tư v ptic@hn.vnn.vn v vinhht@hn.vnn.vn v miÔn_phÝ v chương_trình v modem v adsl v khuyến_mại v th­_®iƯn_tư v 10 ptic1@hn.vnn.vn v 11 vinhht@hn.vnn.vn v 12 tặng_quà v 13 chương_trình v 14 đầu_cuối v 15 megavnn v 16 khuyÕn_m¹i u 193 194 from u 193 195 to u 193 196 subject u 193 197 contains u 193 198 contains u 193 199 contains u 193 200 contains Hình 4.6 Tệp đồ thị đầu vào Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang 72 - Đầu hệ thống phát cấu trúc SubDue (hình 4.7) cấu trúc đặc trưng cho thư điện tử folder [root@works /root]# cd subdue [root@works subdue]# bin/subdue -out sub.g graphs/sample.g Subdue 5.1.4 Parameters: Input file graphs/sample.g Predefined substructure file none Output file sub.g Beam width Evaluation method MDL 'e' edges directed true Iterations Limit 89 Minimum size of substructures Maximum size of substructures 200 Number of best substructures Output level Allow overlapping instances false Prune false Threshold 0.000000 Value-based queue false Recursion false Read positive graphs positive graphs: 200 vertices, 179 edges, 3773 bits 26 unique labels 22 initial substructures Best substructures: (1) Substructure: value = 1.44678, pos instances = 13, neg instances = Graph(6v,5e): v thư_điện_tử v ptic@hn.vnn.vn v vinhht@hn.vnn.vn v miễn_phí v chương_trình Hoµng Träng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang 73 - v khuyến_mại u from u to u subject u contains u contains (2) Substructure: value = 1.37358, pos instances = 10, neg instances = Graph(7v,6e): v thư_điện_tử v ptic@hn.vnn.vn v vinhht@hn.vnn.vn v miễn_phí v chương_trình v modem v khuyến_mại u from u to u subject u contains u contains u contains (3) Substructure: value = 1.37358, pos instances = 10, neg instances =0 Graph(7v,6e): v thư_điện_tử v ptic@hn.vnn.vn v vinhht@hn.vnn.vn v miễn_phí v chương_trình v adsl v khuyến_mại u from u to u subject u contains u contains Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa ®å thÞ - Trang 74 - u contains Subdue done (elapsed CPU time = 0.16 seconds) H×nh 4.7 Kết đầu hệ thống phát cấu trúc đồ thị Sau ta tiến hành đối sánh đồ thị tương đối để so sánh thư điện tử đầu vào với cấu trúc đại diện xác định trước Thư điện tử xếp vào folder phù hợp mà xếp hạng cao Kết cho thấy hệ thống phân loại tốt thư tiếng Việt có dấu Đối với thư tiếng Việt không dấu hình 4.7 gặp khó khăn trình tách từ tiếng Việt Hình 4.8 Một thư điện tử tiếng Việt không dấu Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang 75 - kết luận hướng phát triển 5.1 kết luận: Trong luận văn đà trình bày khái niệm khai phá liệu văn nói chung thư điện tử nói riêng Để phân loại thư điện tử áp dụng thuật toán áp dụng cho phân loại văn nói chung cần phải ý đến đặc điểm riêng thư điện tử Trong luận văn đà trình bày phương pháp phân loại truyền thống Với phương pháp này, thuật ngữ liệu xử lý cách độc lập mà không ý đến mối liên quan chúng Trong luận văn đà đề cập đến phương pháp tiếp cận phân loại thư điện tử kỹ thuật khai phá dựa đồ thị Đây phương pháp để nhằm khai phá liệu có cấu trúc nói chung thư điện tử nói riêng Nó trọng đến mối liên thuật ngữ đồng thời sử dụng đối sánh đồ thị tương đối để phân loại thư điện tử cách xác phương pháp truyền thống Trong luận văn đà đề cập đến đặc trưng tiếng Việt để từ rút phương pháp tiếp cận nhằm phân loại thư điện tử tiếng Việt 5.2 Hướng phát triển luận văn: Hoàn thiện chương trình phân loại thư điện tử chương IV để tích hợp với chương trình quản lý thư điện tử thông dụng giúp người dùng phân loại thư điện tử cách tự động theo ưu tiên cá nhân họ Trong luận văn có sử dụng từ điển để tách từ loại bỏ từ dừng Tuy nhiên ta chưa xây dựng từ điển hoàn chỉnh, đầy đủ Bên cạnh ta có có thói quen sử dụng thư điện tử tiếng Việt không dấu, điều gây khó khăn lớn việc phân tách từ Với kỹ thuật khai phá dựa đồ thị ta phân loại Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang 76 - thư điện tử mà ta mở rộng để phân loại liệu tiếng Việt có cấu trúc khác cách có hiệu Việc nghiên cứu khả thi việc áp dụng kỹ thuật khai phá dựa đồ thị mẻ Do thời gian có hạn khuôn khổ luận văn cao học, luận văn chắn nhiều thiếu sót, mong thầy cô giáo quan tâm nhận xét, góp ý Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang 77 - Tài liệu tham khảo Tài liệu tiếng Việt Nguyễn Ngọc Bình, Vũ Ngọc Tiệp, Nguyễn Thanh Phương, Trích chọn từ khoá văn b¶n tiÕng ViƯt” – Kû u héi th¶o qc gia lần thứ hai nghiên cứu, phát triển ứng dụng công nghệ thông tin truyền thông Nhà xuất khoa học kỹ thuật, Hà nội, 2004 Nguyễn An Nhân, Khai phá liệu phát luật kết hợp sở liệu lớn - Luận văn tốt nghiệp cao học, ngành công nghệ thông tin Trường Đại học Bách khoa Hà nội, Hà nội, 2001 Bùi Thị Thu Phương, Tiếp cận học không giám sát học có giám sát với toán phân lớp văn tiếng Việt đề xuất cải tiến công thức tính độ liên quan hai văn mô hình vector Luận văn thạc sĩ công nghệ thông tin Trường Đại học Bách khoa Hà nội, Hà nội, 2004 Nguyễn Thanh Thủ, HƯ dùa trªn tri thøc (Knowledge-based Systems) – Khoa CNTT Trường Đại học Bách khoa Hà nội, Bài giảng trường Đại học Bách khoa Hà nội, Hà néi, 2003 Tµi liƯu tiÕng Anh Andrew Secker, Alex A Freitas, Jon Timmis, AISEC: an Artificial Immune System for E-mail Classification, Computing Laboratory University of Kent Canterbury, Kent UK, CT2 7NF Enrico Giacoletto and Karl Aberer (2003), Automatic Expansion of Manual Email Classifications Based on Text Analysis, School of Computer and Communication Science, EPFL Lawrence B Holder, Diane J Cook (2005), Graph-Based Data Mining, University of Texas at Arlington, USA Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang 78 - Manu Aery and Sharma Chakravarthy (2004), eMailSift: Adapting Graph Mining Techniques for Email Classification, IT Laboratory and CSE Department The University of Texas at Arlington Ramji Beera (2003), Relational database algorithms and their optimization for Graph Mining Svetlana Kiritchenko and Stan Matwin, Email Classification with CoTraining, School of Information Technology and Engineering University of Ottawa AT&T Labs GraphViz: http://www.graphviz.org/ SUBDUE Home Page: http://ailab.uta.edu/subdue/ http://www.informatik.uni-leipzig.de/~duc/Dict/index.html Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thÞ ... mục thư điện tử quan trọng, hệ thống phân loại dựa vào để phân loại Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang 38 - Chương III - kỹ thuật khai phá dựa đồ thị Khai. .. Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang 35 - 2.2 Kỹ thuật Phân loại thư điện tử: Như ta đà nêu, phân loại thư điện tử có đặc thù định, khác với phân loại văn thông thư? ??ng... pháp đồ thị khai phá liệu mẻ Phương pháp tiếp cận áp dụng để phân loại thư điện tử Hoàng Trọng Vinh Phân loại thư điện tử kỹ thuật khai phá dựa đồ thị - Trang 25 - Chương II - kỹ thuật phân loại

Ngày đăng: 25/02/2021, 12:57

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w