XÂY DỰNG THỬ NGHIỆM TẬP MẪU VÀ PHẦN MỀM PHÂN TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN ──────── * ─────── ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN XÂY DỰNG THỬ NGHIỆM TẬP MẪU VÀ PHẦN MỀM PHÂN TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT Sinh viên thực hiện : Trần Quý Giáp Lớp CNPM Giáo viên hướng dẫn: TS Huỳnh Quyết Thắng Hà nội 5-2007 1 2 Xây dựng thử nghiệm tập mẫu và phần mềm tự động phân loại văn bản. PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP 1. Định hướng đề tài tốt nghiệp Nghiên cứu tập mẫu, công thức phân loại văn bản. Xây dựng thử nghiệm tập mẫu tiếng việt và xây dựng phần mềm phân loại văn bản theo công thức cải tiến. 2. Các nhiệm vụ cụ thể của ĐATN  Xây dựng tập mẫu tiếng việt với số lượng lớn về văn bản mẫu và nhiều về phân lớp văn bản.  Cài đặt chương trình tự động phân loại văn bản theo công thức cải tiến có tốc độ xử lý nhanh.  Đề xuất các giải pháp để tăng độ chính xác của chương trình. 3. Lời cám đoan của sinh viên: Tôi – Trần Quý Giáp - cam kết ĐATN là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của TS. Huỳnh Quyết Thắng Các kết quả nêu trong ĐATN là trung thực, không phải là sao chép toàn văn của bất kỳ công trình nào khác. Hà Nội, ngày tháng năm Tác giả ĐATN Trần Quý Giáp 4. Xác nhận của giáo viên hướng dẫn về mức độ hoàn thành của ĐATN và cho phép bảo vệ Sinh viên thực hiện : Trần Quý Giáp K47 Lớp CNPM Trang 3 Xây dựng thử nghiệm tập mẫu và phần mềm tự động phân loại văn bản. TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Nội dung đồ án có những phần sau :  Xây dựng thử nghiệm tập mẫu tiếng việt với số lượng lớn văn bản mẫu và nhiều phân lớp.  Nâng cao chất lượng của tập mẫu.  Xây dựng phần mềm phân loại văn bản tiếng việt dựa trên công thức cải tiến. Yêu cầu phần mềm là tốc độ xử lý cao để mang lại tính ứng dụng lớn.  Nghiên cứu tìm ra các giải pháp nâng cao chất lượng của chương trình, các giải pháp bao gồm các vấn đề về tập mẫu, từ điển và công thức tính. Sinh viên thực hiện : Trần Quý Giáp K47 Lớp CNPM Trang 4 Xây dựng thử nghiệm tập mẫu và phần mềm tự động phân loại văn bản. ABSTRACT OF THESIS With the rapid gowth of outline information, text categorization has become one of the key techniques for handling and organizing text data. Text categorization techniques are used to classify new stories, to find interesting information on the www, and to guide a user’s search through hypertext… The objective be of the thesis is the construction vietnamese text collection to assay be with the number of the texts and many the subclassings. Construct a automatic vietnamese text categorization software based on an innovation formula with the high precison and the the quick procesing time. To map out the solution about text collection, the dictionary and the formula to improve more the precision of result in procesing. Sinh viên thực hiện : Trần Quý Giáp K47 Lớp CNPM Trang 5 Xây dựng thử nghiệm tập mẫu và phần mềm tự động phân loại văn bản. Lời mở đầu 8 Danh mục hình : 10 2 10 Danh mục bảng : 11 Danh mục từ viết tắt 12 3 Chương 1. Tổng quan về bài toán xử lý văn bản 13 3.1 Khai phá dữ liệu và phát hiện tri thức 13 3.1.1 Dữ liệu, thông tin và tri thức 13 3.1.2 Khai phá dữ liệu và phát hiện tri thức 14 3.2 Các Khái niệm trong xử lý văn bản 15 3.2.1 Từ khoá, Thuật ngữ, và Khái niệm 15 3.2.2 Từ dừng ( Stop word ) 16 3.2.3 Trọng số của thuật ngữ 16 3.2.4 Độ Liên quan giữa các văn bản 17 3.3 Các bài toán cơ bản trong xử lý văn bản 17 3.3.1 Tìm kiếm văn bản (Text Retrieval) 17 3.3.2 Phân lớp văn bản (Text Categorization, Text Classification) 18 3.3.3 Phân nhóm văn bản (Text Clustering) 18 3.3.4 Tóm tắt văn bản (Text Summarization) 18 3.3.5 Dẫn đường văn bản (Text Routing) 19 3.4 Kết chương 19 4 Chương 2. Bài toán phân loại văn bản 20 4.1 Giới thiệu bài toán phân lớp văn bản 20 4.2 Các thuật toán được sử dụng trong bài toán phân lớp văn bản 20 4.2.1 Các phương pháp phân chia (Partitionning Algorithms) 21 4.2.2 Phương pháp phân nhóm dựa trên hàm mật độ (Density-Based) 21 4.2.3 Phương pháp phân nhóm dựa trên lưới (Grid-Based Method) 22 4.2.4 Phân nhóm dựa trên thuật ngữ xuất hiện thường xuyên (Frequen Itemset) 22 4.2.4.1 Phân nhóm dựa trên thuật ngữ xuất hiện thường xuyên ( Frequen Item set) 23 4.2.4.1.1 Giải thuật Apriori 23 4.2.4.1.2 Giải thuật FP Growth 24 4.3 Các phương pháp biểu diễn văn bản 26 4.3.1 Mô hình không gian vector 26 4.3.1.1 Mô hình Boolean 27 4.3.1.2 Mô hình tần số 27 4.3.1.3 Phương pháp xử lý vector thưa 29 4.3.2 Phương pháp biểu diễn văn bản dựa trên khái niệm mờ 30 4.4 Kết chương 31 5 Chương 3. Tổng quan về tập mẫu 33 5.1 Khái niệm về tập mẫu 33 5.2 Đặc điểm của tập mẫu 34 5.2.1 Nguồn gốc 34 5.2.2 Tính đầy đủ 34 5.2.3 Tính hiệu quả 34 5.3 Các tập mẫu xử lý văn bản tiếng anh 35 5.3.1 Tập mẫu Reuter 21578 35 5.3.1.1 Lịch sử phát triển của tập mẫu Reuter 21578 35 5.3.1.2 Quá trình nâng cấp từ Reuter 22173 đến Reuter 21578 36 5.3.1.3 Khuôn dạng dữ liệu tập mẫu Reuters-21578 36 Sinh viên thực hiện : Trần Quý Giáp K47 Lớp CNPM Trang 6 Xây dựng thử nghiệm tập mẫu và phần mềm tự động phân loại văn bản. 5.3.1.4 Hệ thống phần lớp trong Reuter 21578 41 5.3.1.5 Sử dụng của tập mẫu Reuter 21578 trong phân lớp văn bản 42 5.3.1.6 Tổng kết về Reuter 21578 44 5.3.2 Tập mẫu RCV1 44 5.3.2.1 Tổng quan về tập mẫu RCV1 và RCV2 44 5.3.2.2 Mã hoá dữ liệu tập mẫu RCV1 44 5.3.2.3 Quá trình xây dựng RCV1 45 5.3.2.4 Cấu trúc của tập mẫu RCV1 47 5.3.2.5 Kết luận về RCV1 50 5.4 Kết chương 50 6 Chương 4. Bài toán phân loại văn bản tiếng việt và giải pháp 51 6.1 Tổng quan về xử lý ngôn ngữ tự nhiên 51 6.2 Đặc điểm chung của ngôn ngữ tiếng việt 51 6.2.1 Tính âm tiết 52 6.2.2 Từ trong tiếng việt 52 6.2.3 Ngũ pháp tiếng việt 54 6.2.3.1 Phó từ 55 6.2.3.2 Giới từ 55 6.2.3.3 Liên từ 56 6.2.4 Font được sử dụng trong tiếng việt 56 6.3 Bài toán phân lớp văn bản tiếng việt 57 6.4 Giải thuật phân loại văn bản – công thức cải tiến 57 6.4.1 Mô hình tiếp cận bài toán 57 6.4.1.1 Từ điển 58 6.4.1.2 Tách term và loại bỏ Stopword 59 6.4.1.3 Biểu diễn văn bản 60 6.4.1.4 Các công thức tính toán sử dụng trong thuật giải 61 6.4.1.5 Công thức cải tiến 63 6.4.1.6 Sử dụng thuật toán KNN để xác định thể loại của văn bản 64 6.5 Kết chương 67 7 Chương 5. Tập mẫu tiếng việt và giải pháp 68 7.1 Ý tưởng từ tập mẫu tiếng việt 68 7.2 Những vấn đề về tập mẫu tiếng việt 68 7.3 Quá trình xây dựng tập mẫu tiếng việt 69 7.4 Quá trình nâng cao độ chính xác của tập mẫu tiếng việt 70 7.5 Định dạng của tập mẫu : 70 7.6 Kết chương 74 8 Chương 6. Xây dựng hệ thống thử nghiệm và kết quả 75 8.1 Xác định yêu cầu của đồ án 75 8.2 Phân tích và thiết kế hệ thống 75 8.2.1 Chức năng phân loại văn bản 76 8.2.2 Chức năng quản lý hệ thống 79 8.2.2.1 Quản lý tập mẫu : 79 8.2.2.2 Chức năng quản lý tập mẫu : 80 8.2.3 Chức năng cập nhật hệ thống 81 8.2.3.1 Cập nhật tập mẫu : 81 8.2.3.2 Chức năng cập nhật từ điển : 82 8.3 Thử nghiệm và đánh giá 82 8.4 Đánh giá hiệu suất phân lớp văn bản 88 Kết Luận 91 Tài liệu tham khảo: 94 Phần phụ lục : Một số từ điển cập nhật thêm 95 Sinh viên thực hiện : Trần Quý Giáp K47 Lớp CNPM Trang 7 Xây dựng thử nghiệm tập mẫu và phần mềm tự động phân loại văn bản. 1 Lời mở đầu Trên thế giới bài toán phân lớp văn bản- text categorization đã xuất hiện khá lâu, và đã được tiến hành trên rất nhiều ngôn ngữ khác nhau. Ở Việt Nam những năm gần đây, với sự quan trọng và sự phát tiển rất mạnh của Internet, thông tin được lưu trữ dưới dạng văn bản ngày càng nhiều, thực tế này yêu cầu chúng ta phải có một phương tiện để xử lý tự động các văn bản, phân loại và sắp xếp quản lý chúng. Chương trình phân loại văn bản là chương trình đáp ứng được yêu cầu đó. Thông qua phân loại văn bản chúng ta có thể phân loại, xắp xếp chúng phù hợp với chủ đề tương ứng với độ chính xác cao. Phân loại văn bản được ứng dụng trong rất nhiều lĩnh vực, đặc biệt trong lĩnh vực báo điện tử, hay ở những cơ quan lưu trữ tài liệu… Đã có nhiều nghiên cứu và các đề tài khoa học về vấn đề này, và chúng ta đã đạt tới nhiều thành công. Nhưng dù vậy chúng ta vẫn chưa có một tập mẫu tiếng việt chuẩn của chúng ta để kiểm nghiệm độ chính xác của các phần mềm phân loại tiếng việt. Trong đồ án này em đã tạo ra một tập mẫu tiếng việt thử nghiệm và được sử dụng ngay trong chương trình phân loại phân bản tự đông, thực nghiệm cho thấy nó cho kết quả tốt. Tuy nhiên vì kiến thức còn hạn chế và thời gian có hạn nên chắc hẳn chương trình và tập mẫu của em còn nhiều sai sót, kính mong các thầy cô góp ý để em có thể hoàn thiện đồ án của mình. Và cuối cùng em xin chân thành gửi lời cảm ơn thầy Huỳnh Quyết Thắng đã tận tình hướng dẫn làm đề tài và chị Đinh Thị Phương Thu đã cung cấp cho em nhiều kiến thức và kinh nghiệm để em có thể hoàn thành đồ án của mình. Hà nội, ngày 22 tháng 5 năm 2007 Sinh viên Trần Quý Giáp Sinh viên thực hiện : Trần Quý Giáp K47 Lớp CNPM Trang 8 Xây dựng thử nghiệm tập mẫu và phần mềm tự động phân loại văn bản. Lời cảm ơn ! Sinh viên thực hiện : Trần Quý Giáp K47 Lớp CNPM Trang 9 Trước hết, em xin được chân thành gửi lời cảm ơn sâu sắc tới các thầy cô giáo trong trường Đại học Bách Khoa Hà Nội nói chung và các thầy cô trong khoa Công nghệ Thông tin, bộ môn Công nghệ phần mềm nói riêng đã tận tình giảng dạy, truyền đạt cho em những kiến thức và những kinh nghiệm quý báu trong suốt 5 năm học tập và rèn luyện tại trường Đại học Bách Khoa Hà Nội. Em xin được gửi lời cảm ơn đến Ts Huỳnh Quyết Thắng - Giảng viên bộ môn Công nghệ phần mềm, khoa Công nghệ Thông tin, trường Đại học Bách Khoa Hà Nội đã hết lòng giúp đỡ, hướng dẫn và chỉ dạy tận tình trong quá trình em làm đồ án tốt nghiệp. Cuối cùng, em xin được gửi lời cảm ơn chân thành tới gia đình, bạn bè đã quan tâm, động viên, đóng góp ý kiến và giúp đỡ trong quá trình học tập, nghiên cứu và hoàn thành đồ án tốt nghiệp. Hà Nội, ngày 22 tháng 05 năm 2007 Trần Quý Giáp Lớp CNPM – K47 Khoa CNTT – ĐH Bách Khoa HN Xây dựng thử nghiệm tập mẫu và phần mềm tự động phân loại văn bản. Danh mục hình : 2 Sinh viên thực hiện : Trần Quý Giáp K47 Lớp CNPM Trang 10 [...]... ú Ngng t ra tựy thuc vo thut toỏn v yờu cu ngi dựng 3.3.3 Phõn nhúm vn bn (Text Clustering) Phõn nhúm vn bn l vic t ng sinh ra cỏc lp vn bn da vo s tng t v ni dung ca cỏc vn bn S lng cỏc nhúm vn bn õy l cha bit trc, chng hn s nhúm cú th l 2,3 5, Ngi dựng cú th ch ra s lng cỏc nhúm cn phõn nhúm hoc h thng s t phõn nhúm i vi bi toỏn ny, khụng bao gi cú mt kt qu tha món hon ton theo ý ngi dựng Mt lý... vớ d nu phỏt hin thy mt t xut hin trong quỏ 50% s vn bn thỡ cú th coi ú l t dng S dng so sỏnh vi mt t in t dng T in t dựng l mt t in ó c nghiờn cu v xõy dng sn t trc 3.2.3 Trng s ca thut ng Trng s ca thut ng l quan trng hay hm lng thụng tin m thut ng ú mang li cho vn bn Nú l i lng dựng o s khỏc bit gia vn bn Sinh viờn thc hin : Trn Quý Giỏp K47 Lp CNPM Trang 16 Xõy dng th nghim tp mu v phn mm t ng... ói cỏt tỡm vng trong mt tp hp ln cỏc d liu cho trc Cú nhiu thut ng hin c dựng cng cú ngha tng t vi t data mining nh knowledge mining (khai phỏ tri thc), knowledge extraction (cht lc tri thc), data/patern analysis (Phõn tớch d liu/mu), data archaeology (kho c d liu), data dredging (no vột d liu) Hin nay, thut ng khai phỏ d liu c dựng quen thuc v thng ng nht vi mt thut ng khỏc l phỏt hin tri thc trong... cng a cỏc vn bn v cỏc lp, nhúm khỏc nhau v vic x lý ny yờu cu trong thi gian thc Tuy nhiờn, nú cng ging nh bi toỏn tỡm kim, mi lp, nhúm vn bn c gỏn vi cỏc thụng tin cn thit ca mt hay nhiu nhúm ngi dựng Mi ngi dựng cú th thay i thờm bt cỏc yờu cu ca mỡnh Quỏ trỡnh phn hi cú th c s dng nõng cao cht lng tỡm kim vn bn Mt ng dng iu hỡnh ca bi toỏn dn ng vn bn l trong cỏc trang tin in t Khi c mt tin mi, h... xõy dng v phỏt trin V chớnh cỏc kt qu thc nghim tp mu s khng nh tp mu cú hiu qu hay khụng, v c th hn, cú dựng c hay khụng Kim nghim thc t s cho ta bit mt tp mu cú th c coi l tt hay khụng Ta s kim nghim tp mu cú hot ng chớnh xỏc vi cỏc thut toỏn ó c chng minh l ỳng hay khụng Hay núi khỏc i, ta s dựng chớnh thut toỏn kim nghim tp mu Hu ht cỏc ng dng hay thut toỏn u da trờn mt Sinh viờn thc hin : Trn... vn bn (Text Routing), bi toỏn túm tt vn bn (Text Summarization) 3.3.1 Tỡm kim vn bn (Text Retrieval) Tỡm kim vn bn (Text Retrieval) l quỏ trỡnh tỡm cỏc vn bn trong mt kho lu tr theo cỏc yờu cu ca ngi dựng õy, cỏc yờu cu l cỏc truy vn v thng c biu din di dng thut ng hay biu thc logic gia cỏc thut ng Sinh viờn thc hin : Trn Quý Giỏp K47 Lp CNPM Trang 17 Xõy dng th nghim tp mu v phn mm t ng phõn loi... khỏc nhau: c s d liu vn bn, c s d liu quan h, c s d liu hng i tng, c s d liu khụng gian, c s d liu hng thi gian, i vi mi dng c s d liu li cú cỏc phng phỏp x lý khỏc nhau v mc ớch khai phỏ d liu khỏc nhau tựy theo tớnh cht v c thự ca d liu Cỏc k thut c s dng cú th l cỏc phng phỏp truyn thng nh hc mỏy (Machine Learning), nhn dng (Recognition), thng kờ (Statistics), phõn lp (Classification), v cỏc k thut... cú ngha l liờn quan (hay ph thuc) gia cp tin hc-mỏy tớnh cng cao Mt lý do gii thớch suy lun ny l mc thay th 3.2.2 T dng ( Stop word ) Cú th quan sỏt thy rng trong cỏc ngụn ng t nhiờn, rt nhiu t c dựng biu din cu trỳc cõu nhng hu nh khụng mang ý ngha v mt ni dung, chng hn cỏc loi t: gii t, liờn t, Cỏc loi t ny xut hin thng xuyờn trong cỏc vn bn nhng khụng h mang bt c mt thụng tin no v ni dung hay... trong khụng gian ó c lng t hoỏ Hỡnh 2.3 Mụ t mt gii thut phõn nhúm da trờn li rong s cỏc gii thut phõn nhúm da trờn li thỡ STING(Statistical Information Grid) l mt phng phỏp phõn nhúm da trờn li ni ting dựng cho d liu khụng gian Ta khụng i sõu vo chi tit ca gii thut ny trong lun vn 4.2.4 Phõn nhúm da trờn thut ng xut hin thng xuyờn (Frequen Itemset) Phng phỏp s dng thut ng thng xuyờn phõn nhúm c coi... luụn c t ra khi xõy dng mt tp mu, cho dự l tp mu v vn bn, hỡnh nh hay ting núi, ú l d liu s c ly õu? Ngun gc ca mt tp mu chớnh l ni m ngi xõy dng tp mu ly v t ú cỏc d liu thụ tinh chnh thnh cỏc d liu dựng trong tp mu Do ú, nu ngun gc ca d liu cú c l mt ni ỏng tin cy, c s d liu ln(vớ d: Reuter hay AFP) thỡ tp mu chc chn s cú cỏc vn bn y v khỏ chớnh xỏc 5.2.2 Tớnh y Nhng nu nh tp mu ch cú ngun d liu . những phần sau :  Xây dựng thử nghiệm tập mẫu tiếng việt với số lượng lớn văn bản mẫu và nhiều phân lớp.  Nâng cao chất lượng của tập mẫu.  Xây dựng phần mềm phân loại văn bản tiếng việt dựa. Trang 19 Xây dựng thử nghiệm tập mẫu và phần mềm tự động phân loại văn bản. 4 Chương 2. Bài toán phân loại văn bản. 4.1 Giới thiệu bài toán phân lớp văn bản Bài toán phân lớp văn bản là việc. thử nghiệm tập mẫu tiếng việt và xây dựng phần mềm phân loại văn bản theo công thức cải tiến. 2. Các nhiệm vụ cụ thể của ĐATN  Xây dựng tập mẫu tiếng việt với số lượng lớn về văn bản mẫu và

Định dạng
Số trang	96
Dung lượng	3,51 MB

XÂY DỰNG THỬ NGHIỆM TẬP MẪU VÀ PHẦN MỀM PHÂN TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT

Lịch sử phỏt triển của tập mẫu Reuter 21578

Khuụn dạng dữ liệu tập mẫu Reuters-21578