CHƯƠNG III: XÂY DỰNG THÍ NGHIỆM
3.3. Ứng dụng mô hình vào phần mềm tổng hợp tin tức tự động
Mô hình sau khi đã được xây dựng thành công ta tiến hành ứng dụng mô hình này vào phần mềm để dự đoán tin tức tự động.
Quá trình phân lớp trên ứng dụng bao gồm các bước sau đây:
Bước 1: Tiến hành tải model đã lưu trong quá trình xây dựng mô hình lên giao diện.
Bước 2: Tải một bài báo bất kì trong test hoặc trên Internet dưới dạng file .txt.
Bước 3: Tiến hành phân lớp bài báo
Bước 4: Hiển thị kết quả nhãn lớp ra màn hình.
Sau khi đã hoàn thành các bước kết quả sẽ cho ra kết quả như hình sau.
TR ƯỜ NG ĐẠ I H Ọ C KINH
T Ế HU Ế
Hình 3. 11: Kết quả phân lớp theo mô hình
TR ƯỜ NG ĐẠ I H Ọ C KINH
T Ế HU Ế
PHẦN KẾT LUẬN 1. Đánh giá mô hình
Do số lượng dữ liệu còn ít, và những hạn chế trong quá trình xây dựng mô hình cho ứng dụng phân lớp tin tức tự động nên chưa thể kiểm định được hiệu suất xử lý của hệ thống, cũng như độ chính xác về các kết quả của mô hình kiểm thử và dự đoán. Tuy nhiên, theo mặt khách quan, các mục tiêu mà khóa luận đặt ra đã đạt được. Để mô hình có thể đạt độ chính xác cao nhất cần phải phát triển thêm về nhiều mặt như chọn càng nhiều dữ liệu càng tốt, nghiên cứu một số phương pháp phân lớp mới tiến hành chạy mô hình.
2. Những hạn chế của đề tài
Mặc dù đã hoàn thành mục tiêu đề tài là xây dựng phần mềm phân lớp cũng như đã đạt được những thành công nhất định trong quá trình làm tuy nhiên vẫn còn nhiều hạn chế cần phải khắc phục như sau:
- Dữ liệu còn quá ít. Chúng ta cần xây dựng mô hình trên càng nhiều dữ liệu càng tốt.
- Độ chính xác mô hình chưa được cao dẫn đến việc dự đoán kết quả còn nhiều sai sót. Cần phải nghiên cứu thêm nhiều để có thể tăng độ chính xác của mô hình.
- Hạn chế của máy tính cá nhân không đáp ứng được việc xây dựng mô hình một cách chính xác và nhanh chóng.
3. Hướng phát triển đề tài
Để mô hình có thể đưa vào hệ thống vận hành thực sự trong thực tế cần có thêm thời gian và công sức nghiên cứu kiểm thử, hoàn thiện giải pháp và xây dựng phần mềm hoàn chỉnh. Cụ thể chúng ta phải cần thu thập dữ liệu nhiều hơn, càng nhiều dữ liệu để mẫu từ của mô hình càng được đa dạng và phong phú hơn. Từ đó xây dựng thêm nhiều mô hình khác nhau cũng như thay đổi các thông số mô hình để có được mô hình tối ưu nhất. Và có thể ứng dụng vào thực tế một cách tối ưu nhất.
4. Kết luận
Khóa luận đã nêu lên được những nét cơ bản và khái quát về khai phá dữ liệu, khám phá tri thức và những vấn đề liên quan, kỹ thuật khai phá văn bản và đi sâu vào một số phương pháp phân lớp truyền thống. Khóa luận tập trung vào một
TR ƯỜ NG ĐẠ I H Ọ C KINH
T Ế HU Ế
hướng nghiên cứu và phát triển mới trong khai phá dữ liệu đó là khai phá văn bản, một hướng đang thu hút sự quan tâm của nhiều nhà khoa học. Lĩnh vực khai phá văn bản là một vấn đề khá mới mẽ, rất quan trọng và khó, bên cạnh những kết quả nghiên cứu đã đạt được nó đặt ra những thách thức lớn đối với các nhà nghiên cứu.
Khai phá văn bản là một lĩnh vực đầy triển vọng, phức tạp và là vấn đề mở. Hiện chưa có một thuật toán và mô hình biểu diễn dữ liệu tối ưu trong khai phá văn bản.
Và sau khi hoàn thành khóa luận, tuy còn mức đơn giản nhưng em đã nắm được một số kiến thức sau:
- Nắm vững các kiến thức chuyên môn của khai phá dữ liệu cũng như khai phá văn bản.
- Tìm hiểu và nắm vững việc xây dựng các mô hình phân lớp kết hợp cũng như phân lớp cơ sở từ đó thu được mô hình phân lớp có độ chính xác cao nhất.
- Áp dụng mô hình vào thực tiễn, cụ thể là xây dựng phần mềm phân lớp tin tức tự động dưa vào lập trình java trên công cụ NetBeans.
Trong quá trình hoàn thành khóa luận này, mặc dù đã đạt được những kiến thức nhất định, nhưng em nhận thấy khai phá dữ liệu nói chung và khai phá văn bản nói riêng là một lĩnh vực nghiên cứu lớn. Tuy em đã xây dựng được mô hình phân lớp tin tức tự động nhưng do những hạn chế của tài liệu và thời gian cũng như việc dữ liệu còn ít nên vốn từ còn nhiều thiếu sót. Ngoài ra, với kiến thức bản thân còn nhiều hạn chế nên không tránh khỏi những thiếu sót đáng kể nên rất mong muốn nhận được sự nhận xét và những đóng góp ý kiến của quý thầy cô để khóa luận được hoàn thiện hơn.
Cuối cùng một lần nữa em xin chân thành cám ơn Thầy Nguyễn Đình Hoa Cương đã nhiệt tình hướng dẫn và giúp đỡ để em có thể hoàn thành tốt khóa luận này.
Cùng với đó em xin chân thành cám ơn các anh chị tại công ty Lotus Outsourcing và tất cả người thân đã tạo điều kiện tốt nhất để em hoàn thành khóa luận.
TR ƯỜ NG ĐẠ I H Ọ C KINH
T Ế HU Ế
DANH MỤC TÀI LIỆU THAM KHẢO
1. Feldman R. và Dagan I. (1995). Knowledge Discovery in Textual Databases (KDT). KDD, 112–117.
2. Devedzic V. (2001). Knowledge discovery and data mining in databases.
Handbook of Software Engineering and Knowledge Engineering: Volume I:
Fundamentals. World Scientific, 615–637.
3. Maimon O. và Rokach L. (2009). Introduction to knowledge discovery and data mining. Data Mining and Knowledge Discovery Handbook. Springer, 1–15.
4. Fayyad U.M., Piatetsky-Shapiro G., Smyth P. và cộng sự. (1996), Advances in knowledge discovery and data mining, AAAI press Menlo Park.
5. Mena J. (2003), Investigative data mining for security and criminal detection, Butterworth-Heinemann.
6. Han J. và Fu Y. (1996). 16 Exploration of the Power of Attribute-Oriented Induction in Data Mining. Ad… Ces Know Ledge Discov Data M Ining Camb AAAII1T Press 1g96, 399–42l.
7. Mitchell T.M. (1999). Machine learning and data mining. Commun ACM, 42(11), 30–36.
8. Tseng Y.-H., Lin C.-J., và Lin Y.-I. (2007). Text mining techniques for patent analysis. Inf Process Manag, 43(5), 1216–1247.
9. Mining W.I.D. (2006). Data Mining: Concepts and Techniques. Morgan Kaufinann.
10. Kovalerchuk B. và Vityaev E. (2000), Data mining in finance: advances in relational and hybrid methods, Springer Science & Business Media.
11. Ngai E.W., Xiu L., và Chau D.C. (2009). Application of data mining techniques in customer relationship management: A literature review and classification. Expert Syst Appl, 36(2), 2592–2602.
12. Zhu F., Patumcharoenpol P., Zhang C. và cộng sự. (2013). Biomedical text mining and its applications in cancer research. J Biomed Inform, 46(2), 200–211.
13. Chakraborty G., Pagolu M., và Garla S. (2014), Text mining and analysis:
practical methods, examples, and case studies using SAS, SAS Institute.
TR ƯỜ NG ĐẠ I H Ọ C KINH
T Ế HU Ế
14. Zweigenbaum P., Demner-Fushman D., Yu H. và cộng sự. (2007). Frontiers of biomedical text mining: current progress. Brief Bioinform, 8(5), 358–375.
15. Lucini F.R., Fogliatto F.S., da Silveira G.J. và cộng sự. (2017). Text mining approach to predict hospital admissions using early medical records from the emergency department. Int J Med Inf, 100, 1–8.
16. Zhu F., Patumcharoenpol P., Zhang C. và cộng sự. (2013). Biomedical text mining and its applications in cancer research. J Biomed Inform, 46(2), 200–211.
17. Te Liew W., Adhitya A., và Srinivasan R. (2014). Sustainability trends in the process industries: A text mining-based analysis. Comput Ind, 65(3), 393–400.
18. He W. (2013). Examining students’ online interaction in a live video streaming environment using data mining and text mining. Comput Hum Behav, 29(1), 90–102.
19. Rajpathak D.G. (2013). An ontology based text mining system for knowledge discovery from the diagnosis data in the automotive domain. Comput Ind, 64(5), 565–580.
20. Oberreuter G. và VeláSquez J.D. (2013). Text mining applied to plagiarism detection: The use of words for detecting deviations in the writing style. Expert Syst Appl, 40(9), 3756–3763.
21. Mostafa M.M. (2013). More than words: Social networks’ text mining for consumer brand sentiments. Expert Syst Appl, 40(10), 4241–4251.
22. Harrag F. (2014). Text mining approach for knowledge extraction in Sahợh Al-Bukhari. Comput Hum Behav, 30, 558–566.
23. Suarez-Tangil G., Tapiador J.E., Peris-Lopez P. và cộng sự. (2014).
Dendroid: A text mining approach to analyzing and classifying code structures in android malware families. Expert Syst Appl, 41(4), 1104–1117.
24. ệztỹrk N. và Ayvaz S. (2017). Sentiment analysis on Twitter: A text mining approach to the Syrian refugee crisis. Telemat Inform.
25. Amrit C., Paauw T., Aly R. và cộng sự. (2017). Identifying child abuse through text mining and machine learning. Expert Syst Appl, 88, 402–418.
TR ƯỜ NG ĐẠ I H Ọ C KINH
T Ế HU Ế