, trong đĩ σ là hằng số tỷ lệ
TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN
Chương này tổng kết các kết quảđề tài và đề xuất các hướng phát triển của đề tài trong tương lai. Bên cạnh các kết quả nghiên cứu, triển khai, nhĩm đề tài đã cơng bố 07 cơng trình khoa học cĩ liên quan đến đề tài nghiên cứu và đã cĩ 05 học viên cao học bảo vệ thành cơng luận văn thạc sĩ theo hướng đề tài.
8.1. CÁC KẾT QUẢ CỦA ĐỀ TÀI
− Thu thập và xây dựng từ điển đồng nghĩa, gần nghĩa tiếng Việt thơng dụng trong lĩnh vực CNTT gồm các từ điển: từ điển Wordnet gốc, từ điển đồng nghĩa, từ điển phân cấp LLOCE bản tiếng Việt, từ điển các từ cĩ liên quan trong lĩnh vực CNTT, từđiển thuật ngữ tin học nhằm bổ sung ngữ nghĩa vào bài tốn phân loại, gom cụm, tạo trích lược nội dung văn bản...
− Xây dựng một số kho ngữ liệu như: kho ngữ liệu cĩ gán nhãn phục vụ huấn luyện các mơ hình tách từ, gán nhãn từ loại. Kho ngữ liệu thơng điệp và văn bản tiếng Việt phục vụ phân loại và đánh giá kết quả phân loại văn bản.
− Phát triển modun trích cụm danh từ trong văn bản tiếng Việt phục vụ đặc trưng văn bản tiếng Việt bằng các cụm danh từ.
− Nghiên cứu và đề xuất giải pháp phân lớp, gom cụm cĩ ngữ nghĩa của cụm danh từ dựa trên đồ thịđồng hiện và từđiển đồng nghĩa, gần nghĩa.
− Nghiên cứu và xây dựng hệ thống phân loại văn bản tiếng Việt bằng phương pháp Naive Bayes và áp dụng vào phân lớp thơng điệp tiếng Việt trên diễn
đàn thảo luận.
− Nghiên cứu và xây dựng hệ thống tạo trích lược một văn bản tiếng Việt trong lĩnh vực CNTT trên Web.
− Nghiên cứu và xây dựng hệ thống tạo trích lược nhiều văn bản tiếng Việt trong lĩnh vực CNTT dựa trên việc gom cụm văn bản bằng mạng Kohonen
8.2. DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ CĨ LIÊN QUAN ĐẾN ĐỀ TÀI LIÊN QUAN ĐẾN ĐỀ TÀI
Dựa trên các kết quảđề tài, nhĩm đề tài đã cơng bố 07 cơng trình khoa học trong các tạp chí và hội thảo chuyên ngành CNTT như sau:
1. Đỗ Phúc, Hồng Kiếm (2004), Rút trích ý chính từ văn bản tiếng Việt hỗ trợ
tạo tĩm tắt nội dung, Tạp chí Bưu chính Viễn thơng & Cơng nghệ thơng tin; Chuyên san các cơng trình nghiên cứu- triển khai viễn thơng và cơng nghệ
2. Do Phuc, Hoang Kiem (2005)-Improving learning algorithm of Self- organizing map for document clustering, In proceedings of the 3rd
international conference on research Innovation and Vision of the Future, RIVF’05, Vietnam, pp 173-176
3. Đỗ Phúc, Hồ Anh Thư (2005)–Rút trích và tĩm tắt nội dung trang Web tiếng Việt, Tạp chí Phát triển Khoa học Cơng nghệ, ĐHQG-HCM, tập 8, số 10, tr 13-22
4. Do Phuc (2006), Document classification using graph model, frequent subgraphs and Galois lattice, In Proceedings of the 4th IEEE International conference on computer science research, innovation and revision for the future, RIVF’06, VietNam, pp 173-176
5. Đỗ Phúc (2006), Nghiên cứu ứng dụng tập phổ biến và luật kết hợp vào bài tốn phân loại văn bản tiếng Việt cĩ xem xét ngữ nghĩa, Tạp chí Phát triển Khoa học và Cơng nghệĐHQG – HCM, tập 9,số 2, tr 23-32, 2006
6. Do Phuc, Mai Xuan Hung, Hoang Kiem (2006), Using Kohonen Neural Network and Natural Language Processing for Extracting Salient Sentences in the Corpus of Scientific papers, hội thảo Kỷ niệm 30 năm ngày thành lập viện Cơng nghệ thơng tin, Viện Khoa học và Cơng nghệ Việt Nam 1976- 2006
7. Do Phuc, Nguyen Thi Kim Phung(2007), Using Nạve Bayes Model and Natural Language Processing for Classifying Messages on Online Forum, In
In Proceedings of the IEEE International conference RIVF’07 conference,VietNam, pp 247-252
8.3. DANH SÁCH CÁC HỌC VIÊN CAO HỌC ĐÃ BẢO VỆ THÀNH CƠNG LUẬN VĂN THẠC SỸ CNTT THEO HƯỚNG ĐỀ TÀI CƠNG LUẬN VĂN THẠC SỸ CNTT THEO HƯỚNG ĐỀ TÀI
STT Họ và Tên Đề tài Cơ sở đào tạo 1 Trần Thế Lân Nghiên cứu ứng dụng tập
thơ vào bài tốn phân loại văn bản
Trường ĐHKHTN, 2004
2 Hồ Anh Thư Rút trích nội dung chính của trang web dựa vào ngữ cảnh
của trang Web 3 Nguyễn Thị Kim Phụng Phát triển cơng cụ hỗ trợ quản trị nội dung trên diễn đàn thảo luận qua mạng Trường ĐHKHTN, 2005
4 Trịnh Minh Tuấn Ưng dụng kỹ thuật khai thác đồ thị vào lĩnh vực phân lớp văn bản tiếng Việt
Trường ĐHCNTT,2006
5 Mai Xuân Hùng Gom cụm văn bản bằng mạng SOM dựa trên các cụm danh từ trong văn bản tiếng Việt
Trường ĐHCNTT, 2006
8.4. HƯỚNG PHÁT TRIỂN
Nhĩm đề tài sẽ tiếp tục nghiên cứu và phát triển các nội dung:
− Nậng cao độ chính xác của phần mềm trích cụm danh từ tiếng Việt
− Hồn chỉnh các từđiển đồng nghĩa, gần nghĩa tiếng Việt
− Nâng cao khả năng giải quyết vấn đề ngữ nghĩa trong bài tốn phân loại và trích lược nội dung văn bản.