Từ tập dữ liệu huấn luyện ban đầu sau quá trình chuẩn hĩa văn bản ta xây dựng bộ từ điển bao gồm các danh từ. Để xây dựng đƣợc bộ từ điển danh từ này, phải xây dựng một cách thủ cơng dựa trên hệ thống gán nhãn từ loại và lƣu vào cơ sở dữ liệu của hệ thống. Hình 3.3 dƣới đây là hệ thống gán nhãn từ loại mà luận văn sử dụng trong quá trình xây dựng bộ từ điển danh từ thủ cơng.
Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
Hình 3.3. Hệ thống VLSP.
Bảng dƣới đây mơ tả một cấu trúc bảng bao gồm các danh từ trong tập chủ đề đƣợc tách ra từ tập dữ liệu văn bảncủa kho ngữ liệu và giá trị trọng số tƣơng ứng.
Bảng 3.2. Danh sách một số từ trong tập từ chủ đề.
STT Từ chủ đề Giá trị thơng tin
1 bộ nhớ 0.057 2 bộ xử lý 0.032 3 cấu hình 0.077 4 chat 0.045 5 internet 0.340 6 Lan 0.114 7 Đĩa cứng 0.008 8 hệ điều hành 0.176 9 Hacker 0.045 10 trình duyệt 0.032
Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 11 wifi 0.016 12 Tín hiệu 0.036 13 windows 8 0.012 14 bo mạch chủ 0.012 15 vista 0.053 16 giao diện 0.081 17 Mã nguồn mở 0.024 18 Tín hiệu 0.036 19 điện thoại 0.303 20 hiệu năng 0.036 3.3. Mơi trƣờng cài đặt
3.3.1. Mơi trường cài đặt của hệ thống
Hệ thống đƣợc xây dựng trên nền web để thuận tiện cho việc tra cứu trực tuyến. Ngơn ngữ lập trình đƣợc sử dụng để xây dựng hệ thống là ngơn ngữ C#.net trong bộ Visual Studio 2013, cùng với hệ quản trị cơ sở dữ liệu SQL Server 2008. Chƣơng trình cĩ thể dễ dàng cài đặt và chạy ổn định trên nền tảng hệ điều hành Windows XP hoặc Windows 7.
3.3.2. Cấu trúc của chương trình
Trang quản trị
Trang quản trị là trang quản lý dữ liệu chƣơng trình. Trong trang quản trị, ngƣời dùng cĩ thể quản lý thể loại, quản lý tin tức, quản lý các văn bản huấn luyện,…
Trong quản lý tin tức, ngƣời dùng cĩ thể lựa chọn chức năng hiển thị các tin đƣợc thu thập tự động. Các tin này, khi đƣợc phân loại cĩ thể đƣợc hiển thị trực tiếp lên trang chủ hoặc cĩ thể đƣợc phân loại nhƣng chƣa chính xác
Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
thì tin đĩ sẽ đƣợc đƣa vào hàng chờ để ngƣời quản trị thực hiện phân loại bằng tay.
Trang chủ
Trang chủ website là trang hiển thị thơng tin các mục tin tức, các thể loại tin chứa các bài viết theo chủ đề đĩ. Trang chủ là trang mà ngƣời đọc tin thao tác chủ yếu với hệ thống.
Trên trang chủ hiển thị các tin tức đã đƣợc phân loại tự động, hoặc ngƣời quản trị phân loại hoặc cập nhật bằng tay. Ngƣời đọc tin chọn tin cần đọc để xem tồn bộ chi tiết của tin đĩ.
Trang chi tiết
Trang chi tiết là trang hiển thị nội dung chi tiết tin tức mà ngƣời dùng lựa chọn đọc tin. Nội dung hiển thị trang chi tiết đƣợc hiển thị theo nội dung bài viết trên trang báo điện tử mà tin đĩ đƣợc lấy về.
3.3.3. Giao diện chương trình
Giao diện trang chủ
Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
Giao diện các thể loại tin
Hình 3.5. Giao diện các thể loại tin
Giao diện Tin huấn luyện
Hình 3.6. Giao diện tin huấn luyện
Để huấn luyện tin trƣớc hết ngƣời dùng cần chọn thể loại huấn luyện (những thể loại đã định nghĩa sẵn), sau đĩ chọn đƣờng dẫn là các trang web
Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
để lấy tin huấn luyện, nhấn nút Lấy tin để cĩ các tin huấn luyện, muốn hủy
thao tác trƣớc nhấn nút Hủy. Để chỉnh sửa nội dung các tin huấn luyện tại
mục Chi tiết kích chọn để hiển thị chi tiết tin tức, ngƣời dùng cĩ thể chỉnh sửa nội dung, hình ảnh,..
Giao diện danh sách từ khĩa
Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
Ngồi từ khĩa đã định nghĩa sẵn, ngƣời dùng cĩ thể định nghĩa thêm
các từ khĩa khác , bằng cách nhấn nút Thêm từ khĩa để thêm từ khĩa mới,bên
cạnh đĩ ngƣời dung thực hiện các thao tác nhƣ: Thêm từ tệp tin, Xĩa dữ liệu
HL, Xĩa hết từ khĩa
Giao diện cài đặt huấn luyện
Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
Giao diện huấn luyện phân loại
Hình 3.9. Giao diện huấn luyện phân loại
Giao diện danh sách tin tức
Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
Giao diện ngƣời dùng
Hình 3.11. Giao diện người dùng
3.4. Kết quả thực nghiệm
Chƣơng trình này đã xây dựng phân loại cho 4 chủ đề: Xã hội , CNTT, Thể thao, Giáo dục.Số lƣợng 220 văn bản dùng cho đánh giá. Luận văn sử dụng độ đo chính xác để đánh giá phƣơng pháp phân loại văn bản sử dụng mơ hình chủ đề và NaiveBayes. 𝜋 = 𝑇𝑃𝑖 |𝑐| 𝑖=1 𝑇𝑃𝑖 + 𝐹𝑃𝑖 |𝑐| 𝑖=1 Trong đĩ:
- TP: văn bản đƣợc phân loại đúng
- FP: văn bản phân loại bị sai.
Để tính số lƣợng các đặc trƣng trung bình đã đƣợc giảm so với số đặc trƣng ban đầu khi phân loại, luận văn sử dụng cơng thức sau:
𝐴𝐹 = 𝑓𝑖
𝑚 𝑖=1
Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
Trong đĩ:
- fi là số đặc trƣng trong tập test.
- N là số văn bản trong tập test. Kết quả đánh giá thực nghiệm
Bảng 3.3. Độ triệu hồi khi thực hiện các truy vấn.
Chủ đề Số lƣợng văn bản Phƣơng pháp truyền thống Phƣơng pháp áp dụng giảm chiều đặc trƣng với topic
modeling Số đặc trƣng TB Độ chính xác Số đặc trƣng TB Độ chính xác Nghệ thuật 50 1120 0.86 435 0.916 Thể thao 30 835 0.88 251 0.96 Cơng nghệ 40 456 0.85,4 216 0.97 Thị trƣờng 25 727 0.78 304 0.93 Tài chính 30 883 0.80,33 378 0.948 Bất động sản 45 954 0.82 452 0.92
Kết quả đánh giá tại bảng 3.3 cho thấy rằng, phƣơng pháp của luận văn đƣa ra so với phƣơng pháp truyền thống cĩ số lƣợng đặc trƣng giảm 60%, và độ chính xác cao hơn so với phƣơng pháp truyền thống đối với các chủ đề khi phân loại. Do số lƣợng đặc trƣng giảm, các đặc trƣng nhiễu với mỗi chủ đề sẽ ít hơn, tốc độ tính tốn nhanh hơn và độ chính xác cao hơn.
3.5. Kết luận chƣơng 3
Trong chƣơng này, trình bày chi tiết từ phân tích thiết kế của hệ thống và các giao diện của hệ thống. Các chức năng chính của hệ thống cũng đƣợc mơ tả rõ ràng, đầy đủ.
Đánh giá kết quả của phƣơng pháp luận văn thực hiện cài đặt cho kết quả tốt hơn các phƣơng pháp truyền thống và số đặc trƣng giảm hơn 60% so
Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
với cách trích rút đặc trƣng truyền thống, cho thấy rằng phƣơng pháp này thực sự cĩ ý nghĩa. Trong luận văn cũng sử dụng cách đánh giá bởi chuyên gia con ngƣời cho kết quả chấp nhận đƣợc.
Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN
Với các yêu cầu đặt ra về việc nắm bắt thuật tốn Naive Bayes để hiểu cách thức phân loại văn bản trong tiếng Việt từ đĩ áp dụng vào phân loại các bài báo trong các lĩnh vực Cơng nghệ thơng tin theo các chuyên ngành khác nhau dựa trên việc khảo sát một số hội thảo các chuyên ngành CNTT trong nƣớc, chƣơng trình cơ bản đáp ứng đƣợc các yêu cầu trên. Cùng với đĩ chƣơng trình đáp ứng thêm một số chức năng: thêm, xĩa, sửa, quản lý các bài báo một cách dễ dàng, thuận tiện.
Sau thời gian thực hiện nghiên cứu luận văn đã thành cơng một số cơng việc cụ thể sau:
- Khảo sát tài liệu thuộc chính chuyên ngành Cơng nghệ thơng tin để tìm hiểu đặc trƣng riêng.
- Nghiên cứu thuật tốn theo cơng trình số [8] và thực hiện việc đánh giá thử nghiệm.
- Xây dựng phần mềm phân loại theo phƣơng pháp của luận văn nghiên cứu.
Hƣớng phát triển của đề tài:
- Xây dựng danh sách hồn thiện các từ phổ thơng, ký tự đặc biệt nhằm loại bỏ các yếu tố gây nhiễu trong quá trình huấn luyện cũng nhƣ phân loại văn bản.
- Tiếp tục huấn luyện thêm dữ liệu để bộ đặc trƣng của bộ chuyên ngành đƣợc chính xác hơn.
- Thực hiện thử nghiệm trên số lƣợng lớn các bài báo chƣa đƣợc phân loại.
Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt
[1]. Nguyễn Linh Giang, Nguyễn Mạnh Hiển,Phân loại văn bản tiếng Việt với
bộ phân loại vectơ hỗ trợ SVM
[2]. Nguyễn Hữu Quỳnh, Ngữ pháp Tiếng Việt, NXB Từ điển Bách Khoa,
2001.
Tài liệu tiếng Anh
[3].Ha Nguyen Thi Thu, Quynh Nguyen Huu, Khanh Nguyen Thi Hong,
Hung Le Manh, Optimization for Vietnamese Text Classification Problem
by Reducing Feature Set, 2012 6th International Conference on New Trends in Information Science, Service Science and Data Mining, pp. 209-214, 2012.
[4]. C. Apte, F. Damerau, S. Weiss,Automated Learning of Decision Rules for
Text Categorization,ACM Transactions on Information Systems, 12(3), pp. 233–251, 1994.
[5]. Novovicova J., Malik A., and Pudil P., “Feature Selection Using
Improved Mutual Information for Text Classification”, SSPR&SPR 2004, LNCS 3138, pp. 1010–1017, 2004.
[6]. Eui-Hong Han, Text Categorization Using Weight Adjusted k-
Nearest Neighbor Classification. PhD thesis, University of Minnesota, October 1999.
[7]. A. Basu, C. Watters, and M. Shepherd, Support Vector Machines for Text
Categorization, Proceedings of the 36th Hawaii International Conference on SystemSciences (HICSS’03), 0-7695-1874-5/03, 2003.
[8]. Aigars Mahinovs and Ashutosh Tiwari, Text Classification Method
Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
[9]. Hiroshi Shimodaira, Text Classification using Naive Bayes, Learning and
Data Note, 10 February 2015.
[10]. Mark Steyvers, Tom Griffiths, Probabilistic Topic Models, In: In T.
Landauer, D McNamara, S. Dennis, and W. Kintsch (eds),Latent Semantic Analysis: A Road to Meaning. Laurence Erlbaum, 2014.
[11]. Ha Nguyen Thi Thu, Tinh Thanh Dao, Vinh Ho Ngoc, Thanh Nguyen
Hai, Building Vietnamese Topic Modeling Based on Core Terms and
Applying in Text Classification, 2015 Fifth International Conference on Communication Systems and Network Technologies, pp 1284-1288, @2015 IEEEDOI 10.1109/CSNT.2015.22.