Để tiến hành thực nghiệm, tôi sử dụng JVNTextPro [13] để tiến hành tách từ
tiếng Việt. Để tạo mô hình chủđềNn, tôi sử dụng JGibbsLDA [12].
Bên cạnh đó, tôi tự xây dựng chương trình lọc bỏ html tag và lọc bỏ những từ
nhiễu trong quá trình tiền xử lý cũng như chương trình phân cụm và đánh giá kết quả
phân cụm với chủđềNn bằng thuật toán K-means.
4.3. Chu$n bị dữ liệu
4.3.1. Dữ liệu học
4.3.1.1. Dữ liệu tổng thể (Universal dataset) cho xây dựng chủ đề $n mức 1
Đây là dữ liệu để học mô hình chủ đề Nn. Yêu cầu quan trọng của dữ liệu tổng thể là phải đủ lớn, bao quát trên nhiều miền dữ liệu và phải được tiền xử lý, lọc nhiễu.
Dữ liệu được trích rút từ 3 website: http://vnexpress.vn, http://vietnamnet.net,
http://dantri.com.vn. Đây là những website lưu trữ lượng thông tin lớn, được cập nhật liên tục và trải rộng trên nhiều chủđề. Tôi tiến hành trích rút theo 10 chủđề sau: Kinh doanh-kinh tế, khoa học, pháp luật, sức khỏe, giải trí, thể thao, công nghệ, thế giới, giáo dục, chính trị-xã hội. Đây là những chủ đề được quan tâm và bao quát hầu hết những chủđề của nhiều website.
Dữ liệu sau khi được trích rút có tất cả khoảng 150MB dữ liệu với 12888 files. Sau khi tiền xử lý, loại bỏ những từ vô nghĩa và kém liên quan, thu được dữ liệu tổng thể dung lượng 42MB, số lượng văn bản 12888.
Chi tiết về số lượng trang web được trích rút trên từng chủđề được trình bày chi tiết trong bảng dưới đây:
26
Bảng 3: Chi tiết số lượng trang web được trích rút với 10 chủđề lớn
STT Chủđề Vnexpress Vietnamnet Dantri Tổng số
1 Kinh Tế 997 232 523 1752 2 Khoa Học 222 369 591 3 Pháp Luật 128 192 173 493 4 Sức Khỏe 324 67 478 869 5 Giải trí 342 411 753 6 Thể Thao 235 740 975 7 Công nghệ 174 431 344 949 8 Thế Giới 755 787 841 2383 9 Giáo Dục 428 787 1215 10 Xã Hội 738 739 899 2376 Tổng 4191 3656 4661 12888
Chủ đề với số trang web nhiều nhất là “Thế giới”: 2383 và chủ đề có số trang web nhỏ nhất là pháp luật với 493 trang.
Sau khi được trích rút, các trang web được tiền xử lý với các bước như sau:
• Xóa html tag
• Lọc bỏ nhiễu lần 1
• Tách từ, sử dụng JVNTextPro
• Lọc bỏ nhiễu lần 2
Sau quá trình tiền xử lý, dữ liệu tổng thể thu được nặng 42MB, được lưu trong file với dòng đầu tiên là số các trang web và các dòng tiếp theo là nội dung các trang web đã được tiền xử lý. Dưới đây là minh họa về dữ liệu tổng thể:
12888
Lượng xe Rolls Royce Phantom nhập_khNu về Việt_Nam hiện… Bộ sưu_tập xe Cường_đô la_lên trang ô_tô nước_ngoài …
Theo thông_tin ban_đầu xe vừa có_mặt Hà_Nội cuối nữ_hoàng Aston Martin Rapide …
Chưa đầy tuần sau khi xuất_hiện hình_ảnh hiếm_hoi Lamborghini LP6704 … Siêu xe màu_xanh Lamborghini Murcielago LP640 có_mặt Đà_Nẵng …
Hình 9: Minh họa về file dữ liệu học cho JGibbsLDA
27
Để bổ sung thêm số trang web về lĩnh vực kinh tế, tôi tiến hành trích rút thêm các trang web về kinh tế từ http://www6.vnmedia.vn/, http://www.tienphong.vn/. Các trang web được trích rút gồm 1329 trang web, kết hợp với 1752 trang web về kinh tế đã trích rút ở trên, tất cả có 3081 trang web. Thống kê trên 5 chủ đề con: Doanh nghiệp, chứng khoán, bất động sản, mua sắm, kinh tế thế giới như bảng 4:
Bảng 4: Chi tiết số lượng trang web được trích rút với 5 chủđề con thuộc lĩnh vực kinh tế
STT Chủ
đề VnExpress Vietnamnet Dantri Vnmedia phong Tien Tổsng ố 1 Bất động sản 123 133 159 150 200 765 2 Chứng khoán 307 99 139 127 220 892 3 nghiDoanh ệp 99 89 135 323 4 Mua sắm 286 201 487 5 GiThế ới 162 136 145 171 614 6 Tổsng ố 977 232 523 758 591 3081
Dữ liệu học cho lĩnh vực kinh tế có dung lượng 10.4 MB. File đầu vào cho JGibbsLDA có định dạng tương tự như trong hình 9.
4.3.2. Dữ liệu kiểm tra 4.3.2.1. Phân cụm mức 1
Để tiến hành đánh giá kết quả phân cụm mức 1, tôi tiến hành trích rút các trang web từhttp://baomoi.com, theo 10 chủđề như với dữ liệu tổng thể. Chi tiết về dữ liệu phân cụm mức 1 được nêu như hình dưới đây:
28 Số chủđề: 10 chủđề
Tổng số file: 2000
Số lượng trang web trên mỗi chủđề: 200
Độ lớn dữ liệu chưa qua xử lý (Độ lớn các file html): 34MB
Độ lớn dữ liệu đã qua xử lý: 8.89MB
Hình 10: Mô tả dữ liệu đánh giá phân cụm mức 1
4.3.2.2. Phân cụm mức 2
Để tiến hành đánh giá kết quả phân cụm mức 2, tôi tiến hành trích rút các trang web từ http://vneconomy.vn là một chuyên trang về kinh tế, thị tường theo 5 chủđề, gồm có: Doanh nghiệp, mua sắm, chứng khoán, bất động sản, thế giới. Chi tiết về dữ
liệu phân cụm mức 2 được nêu như dưới đây: Số chủđề: 5 chủđề
Tổng số file: 500
Số lượng trang web trên mỗi chủđề: 100
Độ lớn dữ liệu chưa qua xử lý (Độ lớn các file html): 15MB
Độ lớn dữ liệu đã qua xử lý: 3.82MB
Hình 11: Mô tả dữ liệu đánh giá phân cụm mức 2
4.4. Quá trình thực nghiệm
4.4.1. Xây dựng mô hình chủ đề$n 4.4.1.1. Xây dựng mô hình chủ đề $n mức 1
Để minh họa về chủ đề Nn, file dữ liệu tổng thể được sử dụng như file đầu vào cho JGibbsLDA với các tham số như sau:
Bảng 5: Bảng các giá trị tham số cho JGibbsLDA để tạo chủđền gồm 20 từ
Tham số Giá trị alpha 0.5 beta 0.1 K // Số chủđềNn 10 niters // Số vòng lặp 2000 savesteps // Số vòng lặp mỗi lần lưu mô hình 20 twords // Số từ trong 1 chủđềNn 20
29
Hình dưới đây cho ta ví dụ về các chủđềNn được tạo ra với K = 10, twords = 20.
Pháp luật Quốc tế Công nghệ Kinh tế
1 xe Mỹ xe giá
2 xảy_ra nước Nhật tăng
3 phường Trung_Quốc sử_dụng thị_trường 4 TP tổng_thống Nhật_Bản USD
5 tai_nạn Nga nhà_máy mức
6 đối_tượng chính_phủ máy_tính giảm
7 vụ tấn_công điện đầu_tư
8 đường máy_bay hạt_nhân mua
9 tuổi Anh thông_tin công_ty
10 huyện nói điện_thoai nhà 11 nạn_nhân việc hãng giao_dịch 12 điều_tra khu_vực người_dùng người_mua 13 làm phát_ngôn_viên khách_hàng cổ_phiếu 14 Hà_Nội tuyên_bố năm_tới bán 15 cơ_quan thành_phố di_động lớn
16 đi quốc_gia phiên_bản chứng_khoán 17 Thành_phố lực_lượng ipad vàng
18 hàng Pháp mẫu doanh_nghiệp
19 Công_an tự_vệ dịch_vụ phiên 20 nhà an_ninh phân_mềm lãi_ròng
Hinh 12: Ví dụ về kết quả tạo mô hình chủđền
Qua hình trên, ta thấy việc khảo sát chủ đềNn có thể mô hình những hiện tượng ngôn ngữ như từđồng nghĩa, từ viết tắt. Ví dụ, trong chủđề về “Quốc tế”, từ “nói” và từ “tuyên_bố” là hai từđồng nghĩa; trong chủđề về “Pháp luật”, “TP” là từ viết tắt của “thành_phố”. Thêm nữa, khảo sát chủ đề Nn là một giải pháp tiết kiệm cho việc ghi nhận ngữ nghĩa của những từ mới (những từ trong tiếng nước ngoài hoặc tên của thực thể). Chẳng hạn, ở chủ đề về “Công nghệ”, từ “ipad” là một từ mới, thể hiện tên của thực thể, không có trong từđiển tiếng Việt.
Các chủ đề ở mức 1 (Kinh tế, pháp luật, xã hội…) là những chủ đề tương đối rộng, cần số từ tương đối lớn để thể hiện bao quát chủ đề. Vì thế, tôi tiến hành xây dựng chủđềNn với 40 từ mỗi chủđề. Các chủđềNn được tạo ra sẽđược dùng trong thì
30
nghiệm gom cụm mức 1 như trình bày trong phần 4.4.2.Phân cụm mức 1. Chi tiết tham sốđầu vào cho JGibbsLDA trong pha này được mô tả chi tiết như dưới đây:
Bảng 6: Bảng tham số cho JGibbsLDA để tạo chủđền mức 1 gồm 40 từ
Tham số Giá trị alpha 0.5 beta 0.1 K // Số chủđềNn 10 niters // Số vòng lặp 2000 savesteps // Số vòng lặp mỗi lần lưu mô hình 200 twords // Số từ trong 1 chủđềNn 40 4.4.1.2. Xây dựng mô hình chủ đề $n mức 2
Các chủđề ở mức 2 (bất động sản, chứng khoán…) là các chủ đề con trong lĩnh vực kinh tế, do đó tôi sử dụng số từ trong mỗi chủ đề ít hơn. Tôi tiến hành xây dựng 3 mô hính chủ đề Nn tương ứng với tham số vòng lặp lần lượt là 1000, 1500, 2000 để
tiến hành phân cụm mức 2 trong phần 6.2. Chi tiết tham số xây dựng chủđềNn mức 2 như sau:
Bảng 7: Bảng tham số cho JGibbsLDA để tạo chủđền mức 2 gồm 20 từ
Tham số Giá trị alpha 0.5 beta 0.1 K // Số chủđềNn 10 niters // Số vòng lặp 1000, 1500, 2000 savesteps // Số vòng lặp mỗi lần lưu mô hình 200 twords // Số từ trong 1 chủđềNn 20 4.4.2. Phân cụm mức 1
Trước hết chúng tôi tiến hành phân cụm web trên http://baomoi.com, trên miền dữ liệu toàn thể gồm 10 chủđề. Kết quả phân cụm bằng thuật toán K-means với chủ đềNn được tạo ra với tham sốđược trình bày trong Bảng 5: Bảng các giá trị tham số cho JGibbsLDA để tạo chủđền gồm 20 từ như sau:
31
Hình 13: F-Score của 10 chủđề qua phân cụm
Thí nghiệm đầu tiên thực nghiệm với K = 10 tương ứng với số chủ đề ban đầu. Kết quả cho ta thấy lĩnh vực kinh doanh, kinh tế đạt F-score cao nhất 95.22. Do đó, trong khuôn khổ của kháo luận, tôi tiến hành phân cụm mức 2 đối với các trang web trong lĩnh vực kinh doanh, kinh tế.
4.4.3. Phân cụm mức 2
Trong phần này, tôi tiến hành đánh giá độ chính xác của phân cụm mức 2 với chủ đềNn tạo ra từ số vòng lặp khác nhau. Dữ liệu học được dùng để tạo chủđề Nn là 3081 trang web đã được xử lý, về lĩnh vực kinh doanh, kinh tế, như trong Bảng 4: Chi tiết số lượng trang web được trích rút 5 với chủ đề con thuộc lĩnh vực kinh tế. Tiến hành thực nghiệm tạo ra chủ đề Nn với tham số như trong Bảng 7: Bảng tham số cho JGibbsLDA để tạo chủ đề n mức 2 gồm 20 từ, ta có F-score qua các lần thí nghiệm như dưới đây: Bất Đấng Sấn Chấng Khoán Doanh Nghiấp Mua Sấm Thấ Giấi Trung Bình 1000 vòng 61.66 61.7 62.92 56.79 58.26 60.266 1500 vòng 78.74 77.78 69.14 72.92 73.59 74.434 2000 vòng 86.32 93.75 93.88 94.85 84.21 90.602 Hình 14: Đánh giá phân cụm mức 2 với số vòng lặp 1000, 1500, 2000 0 10 20 30 40 50 60 70 80 90 100 Giải Trí Kinh Tế Khoa Học Giáo Dục Pháp Luật Sức Khỏe Thế Giới Thể Thao Công Nghệ Xã Hội Trung Bình F-Score của 10 chủđề
32
Qua thí nghiệm trên ta có thể thấy độ chính xác của việc phân cụm tăng khi số
vòng lặp tăng lên: F-Score của phân cụm mức 2 với chủđềNn được tạo ra với số vòng lặp lần lượt là 1000, 1500, 2000 vòng lần lượt là: 60.27, 70.43, 90.6. Lý do là qua nhiều vòng lặp hơn, ta tạo ra được chủ đề Nn hội tụ-nói cách khác: chính xác hơn. Ví dụ dưới đây về chủ đề Nn được tạo ra với chủ đề “Bất động sản”, là chủ đề con trong chủđề mức 1 là “Kinh doanh”. Bất động sản – 1000 vòng Bất động sản –2000 vòng 1 điện dự_án 2 thành_phố nhà 3 cấp_phép giao_dịch 4 khu xây_dựng 5 mặt_bằng đầu_tư 6 chỉ_đạo quy_định 7 nhà cấp_phép 8 Bộ nhà_ở 9 tỷ dự_án 10 ngày chỉđạo Hình 15: Ví dụ về chủđề bất động sản với số vòng lặp là 1000 và 2000 Bằng cảm quan, ta có thể thấy chủ đề Nn được tạo ra với số vòng 2000 dùng những từđặc trưng hơn, thể hiện rõ chủđề về đất đai hơn: Những từđược sử dụng dài hơn, ít bị nhầm lẫn với những trong chủ đề khác. Ví dụ, trong chủ đề tạo ra từ 1000 vòng: Từ “ngày” có thể có trong rất nhiều chủ đề như tài chính, giao thương, từ “tỷ” có thể có trong chủđề về chứng khoán, tài chính… Do đó dùng những từ dài hơn, đặc trưng hơn như trong chủđề tạo ra từ 2000 vòng để phân cụm sẽ có kết quả tốt hơn.
Tuy nhiên độ chính xác chỉ tăng đến một giới hạn nào đó, do đó ta không cần tăng số vòng lặp lên quá lớn đểđạt độ chính xác cao, trong khi thời gian thực thi cũng là một yếu tố cần cân nhắc tới. (Hình 16: Thời gian xây dựng mô hình chủđề n mức 2)
4.4.4. Thời gian xây dựng mô hình chủ đề$n 2
Xem xét thời gian chạy của công đoạn tạo mô hình chủ đề Nn với tham số như
trong Bảng 7: Bảng tham số cho JGibbsLDA để tạo chủ đề n mức 2 gồm 20 từ ta có bảng sau:
33
Hình 16: Đánh giá thời gian xây dựng mô hình chủđền mức 2
Qua biểu đồ trên, ta có thể thấy thời gian tạo mô hình chủ đềNn tăng tuyến tính khi số vòng lặp tăng. Tuy nhiên, số vòng lặp đủ lớn mới dẫn tới sự hội tụ của mô hình chủ đề Nn. Thời gian xây dựng chủ đề Nn khá lớn do lượng dữ liệu xử lý trong thí nghiệm là lớn. Tuy nhiên, nếu ứng dụng chủđềNn trong các môđun phân cụm của các máy tìm kiếm, ta có thể chủđộng xây dựng sẵn chủđềNn. Do đó, ứng dụng của chủđề Nn trong việc phân cụm kết quả của máy tìm kiếm cũng rất khả thi.
0 200 400 600 800 1000 1200 1400 1600 1800 1000 vòng 1500 vòng 2000 vòng
Thời gian xây dựng mô hình chủđề ẩn
mức 2
34
Kết luận và định hướng
• Với các kết quảđã đạt được, khóa luận đã đóng góp:
o Xây dựng mô hình phân cụm đa cấp trang web. Các công việc đã làm:
Phân tích và tạo ra mô hình chủ đề Nn mức 1 cho 10 chủ đề lớn (Kinh tế, giáo dục, pháp luật…)
Phân tích và tạo ra mô hình chủ đề Nn mức 2 cho những chủ đề
con thuộc chủ đề kinh tế (Bất động sản, chứng khoán, mua sắm…)
Áp dụng chủđềNn mức 1 và mức 2 để biểu diễn trang web thông qua các chủđề.
Áp dụng thuật toán K-means trong phân cụm
o Thử nghiệm ban đầu với các trang web được trích rút từ một số website như dantri, vietnamnet, vnexpress, baomoi, vneconomy, tienphongonline cho kết quả khá tốt.
• Những vấn đề còn tồn tại:
o Khóa luận chỉ mới áp dụng phân cụm mức 2 với lĩnh vực kinh tế.
o Các lĩnh vực khác được phân cụm mức 1.
• Định hướng phát triển:
o Phân cụm đa mức ở mức độ sâu hơn (n mức)
o Phân cụm đa mức với nhiều lĩnh vực hơn ( giáo dục, xã hội, quốc tế…)
35
Tài liệu tham khảo
Tiếng Việt
[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn CNm Tú, Nguyễn Thu Trang, Giáo trình khai phá web, Nhà xuất bản Đại học Quốc gia Hà Nội, 2009.
[2] Nguyễn Thu Trang, Học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu, Luận văn thạc sỹ, Đại học công nghệ, Đại học quốc gia Hà Nội. 2008, tr. 37- 48.
Tiếng Anh
[3] Robert C. Macgregor, Ann T.Hodgkinson, “Small Business Clustering Technologies: Applications in Marketing, Management, IT and Economics”, IGI Publishing Hershey, PA, USA 2006 ISBN:1599041278, 2006.
[4] Lawrie, D. J., and Croft, W. B, “Generating hierarchical summaries for web searches”, SIGIR '03: Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval (New York, NY, USA, 2003), ACM, 2003, pp. 457-458.
[5] Zhu, D., and Dreher, H, “Improving web search by categorization, clustering, and personalization”, ADMA '08: Proceedings of the 4th international conference on Advanced Data Mining and Applications (Berlin, Heidelberg), Springer-Verlag, 2008, pp. 659-666.
[6] Gelgi, F., Davulcu, H., and Vadrevu, S, “Term ranking for clustering web