Kết luận chƣơng 3

Một phần của tài liệu phương pháp học nửa giám sát và ứng dụng (Trang 73 - 77)

Chƣơng này trình bày về bài toán phân cụm văn bản, các vấn đề xử lý văn bản và áp dụng thuật toán học nửa giám sát để xây chƣơng trình thử nghiệm dơn giản dựa trên ngôn ngữ lập trình C# trên nền hệ điều hành Windows và tiến hành chạy thử nghiệm chƣơng trình với một số bộ dữ liệu đầu vào.

KẾT LUẬN * Đánh giá kết quả đề tài

Trong quá trình nghiên cứu và thực hiện, luận văn đã đạt đƣợc nhƣng kết quả nhƣ sau:

- Giới thiệu một số khái niệm cơ bản trong lĩnh vực học máy, học có giám sát, học không giám sát và học nửa giám sát.

- Trình bày một số thuật toán trong học nửa giám sát nhƣ thuật thoán EM (kỳ vọng cực đại), thuật toán Self – training (tự huấn luyện) và thuật toán S3VM (Semi – superviesd Suport vector machines).

- Giới thiệu một số kỹ thuật phân cụm dữ liệu và việc sử dụng học không giám sát, học nửa giám sát ứng dụng trong các bài toán phân cụm đặc biệt là bài toán phân cụm văn bản.

- Cài đặt thuật toán học nửa giám sát bằng ngôn ngữ lập trình C# chạy trên hệ điều hành Windows và sau đó đã thử nghiệm phân cụm các đoạn văn bản text nhập vào chƣơng trình.

* Hạn chế

- Chƣơng trình thử nghiệm còn đơn giản, chƣơng trình chỉ dừng lại ở mức thực hiện đƣợc các thuật toán trên dữ liệu đầu vào là các đoạn văn bản đƣợc nhập vào, chƣa hỗ trợ việc đọc trực tiếp từ các file văn bản.

- Độ chính xác khi phân cụm văn bản tiếng Việt còn chƣa cao, tốc độ phân cụm với số lƣợng văn bản lớn còn chậm.

Hƣớng phát triển trong tƣơng lai:

Với những kết quả đã đạt đƣợc, tác giả đề xuất một số công việc tiếp theo trong thời gian tới nhƣ sau:

- Tiếp tục xử lý những vấn đề còn tồn tại trong chƣơng trình thử nghiệm đã cài đặt nhƣ: Vấn đề dữ liệu vào và dữ liệu đầu ra, xây dựng giao diện chƣơng trình thân thiện và dễ sử dụng hơn.

- Tiếp tục nghiên cứu các thuật toán tách từ tiếng Việt, phân cụm văn bản để tăng cƣờng hiệu năng và độ chính xác của quá trình phân cụm.

- Tiếp tục nghiên cứu để ứng dụng các thuật toán học nửa giám sát sang một số lĩnh vức khác nhƣ: Bài toán phân loại protein, bài toán nhận dạng hình ảnh, …

TÀI LIỆU THAM KHẢO Tiếng Việt

[1] TS Nguyễn Tân Ân (2011), Bài giảng mạng noron nhân tạo, Trƣờng Đại học Sƣ phạm Hà Nội, Hà Nội.

[2] PGS. TS Đoàn Văn Ban, ThS Nguyễn Hiền Trinh (2009), Ngôn ngữ hình thức và ôtômát, NXB Đại học Thái Nguyên.

[3] Lê Hữu Đạt, Lê Phƣơng Lan, Hoàng Đức Hải (2000), Lập trình Windows, NXB giáo dục.

[4] PGS. TS. Hà Quang Thụy (2011), Bài giảng nhập môn khai phá dữ liệu,

Trƣờng Đại học Công nghệ Đại học Quốc gia Hà Nội, Hà Nội.

[5] B.Bouchon – Meunier, Hồ Thuần, Đặng Thanh Hà (2007), Logic mờ và ứng dụng, NXB Đại học Quốc Gia Hà Nội.

Tiếng Anh

[6] Avirm Blum, Shuchi Chawla (2001), Learning from labeled and Unlabeled Data using Graph Mincuts, Computer Science Department, Carnegie Mellon University, 5000 Forbes Avenue, Pittsburgh, PA15213USA.

[7] Amarnag Subramanya (2012), Partha Pratim Talukdar, A Tutorial on Graph-based Semi-Supervised Learning Algorithms for NLP, South Korea.

[8] Junhui Wang, Xiaotong Shen, Wei Pan (2007), On Transductive Support Vector Machines, School of Statistics University of Minnesota, Minneapolis, MN 55455.

[9] Olivier Chapelle, Bernhard Sch¨olkopf, Alexander Zien (2006), Semi- Supervised Learning.

[10] Partha Pratim Talukdar (July 16, 2010), Experiments in Graph-based Semi-Supervised Learning Methods for Class-Instance Acquisition, Search Labs, Microsoft Research Mountain View, CA 94043, Fernando Pereira Google, Inc.Mountain View, CA 94043.

[11] Xiaojin Zhu (2005), Semi-supervised learning literature survey, University of Wisconsin-Madison Department of Computer Science, page 1530.

[12] Xiaojin Zhu (May 2005), Semi-Supervised Learning with Graphs.

[13] Xiaojin Zhu, Zoubin Ghahramani, John Lafferty (2003), Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions, School of Computer Science, Carnegie Mellon University, Pittsburgh PA 15213, USA.

[14] Zoubin Ghahramani (2012), Graph-based Semi-supervised Learning, Department of Engineering University of Cambridge, UK, La Palma.

[15] Zoubin Ghahramani (September 16, 2004), Unsupervised Learning, Gatsby Computational, Neuroscience Unit, University College London, UK.

[16] Zoubin Ghahramani (2012), Graph-based Semi-supervised Learning, Department of Engineering University of Cambridge, UK, La Palma.

[17] Alex Smola, S.V.N. Vishwanathan (2008), Introduction to Machine Learning, Departments of Statistics and Computer Science Purdue University, College of Engineering and Computer Science Australian National University.

[18] István Pilászy (2005), Text Categorization and Support Vector Machines, Department of Measurement and Information Systems Budapest University of Technology and Economics.

Một phần của tài liệu phương pháp học nửa giám sát và ứng dụng (Trang 73 - 77)

Tải bản đầy đủ (PDF)

(77 trang)