Hướng phát triển - Phân loại văn bản dùng thuật to- 123docz.net

- Xây dựng thêm modum về tách từ tự động, tách câu, xử lý tóm tắt, chuẩn hóa văn bản.

- Xây dựng một kho dữ liệu văn bản lớn.

- Phân loại các lĩnh vực một cách bao quát, rõ ràng hơn. - Thực nghiệm trên dữ liệu lớn hơn.

Phụ lục:

Bảng StopWord – từ dừng:

bạn chính tôi vậy vậy là vài mà chưa cần thật ra từ thế nên họ tao vậy thì vậy mà ít với nhất đã thật là đang có mày mày giữa thế là sau tại qúa vừa theo bất mặt khác tôi mầy cuối thế nhưng đằng sau một chính cùng chiếc bằng đều nó tớ cuối cùng nhưng mà đằng trước nhiều hiện nay gồm đủ hãy liên tục anh mi trừ khi mà bên trên do hoàn toàn bao gồm lúc trước liên tiếp sẵn sàng chị vâng khi cũng bên dưới do vậy ví dụ cái gì trước lúc bất kì bất cứ cái dạ để vậy nhiều vậy nên vân vân vì trước khi mãi tại cuộc thì thế do đó thậm chí cho gì bởi vì tuy nhiên mặc dù đâu anh ta là thế nhưng lại ngay khi cho nên còn do vì tuy vậy một đó cô ấy mà thế mà lẫn trong lúc cho là bao giờ đồng thời tuy hai đây chính anh bị vậy mà về phía trên lúc cho rằng cái ở mặc dù ba ai chính

chị được vậy thế trong lúc ấy rằng là làm cụ thể trời ơi bốn chính là nếu thế thì dưới vào lúc năm lên vẫn là ôi số của tôi khi vậy thì ngoài trong khi sáu tức sẽ dù về mặt của mày này thôi thì sau dù bảy tức là tuy rằng bất chấp tự của bạn nọ vậy thôi trước mặc dù nãy nữa tuy là không mọi bạn đó vân vân trái dù là hồi nãy luôn tuy vậy chẳng như của đây tiếp theo phải dù cho nè luôn luôn nên những nhau chúng vì thế tiếp đến bên dù thế tức thì ối trời tám các hơn chúng

tôi vì vậy kế tiếp

bên

trái thuộc ngay ối chín hỡi sự chúng

tao lại tiếp tục bên phải khoảng tức khắc ơ mặc kệ hầu hết rất chúng ta phải chăng mãi mãi mặc dù khoảng chừng thì ra ơ kìa nữa mỗi rằng chúng

mày mà nghĩa là của cỡ chừng thì mười hay riêng mọi thế mà chúng

Tài liệu tham khảo :

[1]Đỗ Phúc , Trịnh Quốc Sơn : Xây dựng hệ thống tạo kiến trúc phân cấp cụm trang web hỗ trợ tìm kiếm thông tin . 2003 .

[2] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương : "Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt", kỷ yếu Hội thảo ICT.rda’03, Việt Nam, Hà Nội, 02/2003.

[3] Hoàng Kiếm, Đỗ Phúc : "Phân loại văn bản dựa trên cụm từ phổ biến", kỷ yếu hội nghị khoa học lần 2, Trường Đại Học Khoa Học Tự Nhiên , 2000 .

[4] Đỗ Phúc : Chuyên đề khai phá dữ liệu và nhà kho dữ liệu, Giáo trình đào tạo cao học CNTT qua mạng – Đại học Quốc gia TPHCM , 2005 .

[5] Đỗ Phúc , Nguyễn Thị Kim Phụng : Phát triển công cụ quản trị nội dung trên diễn đàn thảo luận qua mạng , 2005 .

[6] H.Nguyễn et al : Internet and Genetics Algorithm-based Text Categorization for Document in Vietnamese , 2005.

[7] Le An Ha : A method for word segmentation Vietnamese , 2003 .

[8] R Shepard , P Arabie : Clustering : Representation of Similarities as Combinations of Discrete Ovelapping Properties . 1997

[9] L Blum , P Langley . Selection of relevant features and examples in machine learning , Artifficial Intelligence , 1997

[10] M Dash , H Liu . Features selection for classification . Intelligent Data Analysis ,1997...