Mơ hình của bài tốn phân lớp văn bản tài chính ngân hàng

Một phần của tài liệu Khai phá dữ liệu (Trang 39)

L ỜI MỞ ĐẦU

3.3.3. Mơ hình của bài tốn phân lớp văn bản tài chính ngân hàng

Để xây dựng được bài tốn phân lớp văn bản dữ liệu về tài chính ngân hàng như trên, trước hết chúng ta cần thu thập dữ liệu và thực hiện việc tách từ trong các văn bản, loại bỏ từ dừng và biểu diễn các văn bản dưới dạng đặc trưng đầu vào cho mơ hình Entropy cực đại. Các bước trong quá trình phân lớp văn bản được thực hiện như sau:

                  ‐ 35 - 

Hình 6. Mơ hình bài tốn phân lp d liu tài chính ngân hàng

Quá trình tiền xử lý (preprocessing) dữ liệu thơng tin về tài chính ngân hàng gồm cách bước sau:

- Tách từ: Với một tập văn bản đầu vào, thơng qua module tách từ, các từ trong văn bản sẽ được nhận biết, mỗi từ sẽđược biểu diễn trong một cặp dấu ngoặc vuơng ( [ ] ) và cách nhau bởi một kí tự trắng. Module tách từ sẽ giúp chúng ta phân biệt được những từ cĩ nghĩa, là cơ sở để loại bỏ từ dừng. Ví dụ, với từ

“cao cấp”, nếu văn bản khơng qua xử lý tách từ và trong bộ từ dừng cĩ từ Tập văn bản đầu vào Module tách từ Tiếng Việt Module loại bỏtừdừng Biểu diễn tất cả các văn bản dưới dạng 1 văn bản đặc trưng Với mỗi một dịng trong văn bản đặc trưng Module phân lớp văn bản Tập văn bản kết quả Văn bản đã được phân lớp Lặp hết các dịng trong văn bản đặc trưng

                  ‐ 36 - 

“cao” thì khi qua xử lý loại bỏ từ dừng thì từ “cao” bị loại bỏ ngay lập tức mà khơng cần biết tới nghĩa của nĩ khi đi cùng từ đằng sau. Ngược lại, nếu văn bản được xử lý tách từ thì sẽ ko cĩ trường hợp loại bỏ này xảy ra. Module tách từ làm cho quá trình loại bỏ từ dừng chính xác hơn.

Ví dụ, nội dung của một đoạn văn bản dữ liệu về tài chính ngân hàng sau khi qua bộ tách từ:

[Đáy] [lãi suất] [cho vay] [về] [mức] [12%] / [năm][Lãi suất] [cho vay] [bằng] [đồng] [Việt Nam] [vừa] [thiết lập] [đáy] [mới] [ở] [mức] [12%] / [năm] [sau] [khi] [Ngân hàng] [Nhà nước] [cơng bố] [hạ] [lãi suất] [cơ bản] [VND] [xuống] [cịn] [11%] / [năm] .[Vietcombank] [tạo] [đáy] [lãi suất] [cho vay] [mới] [ở] [mức] [12%] / [năm][Từ] [nhiều] [ngày nay] , [các] [ngân hàng] [thương mại] [đã] [cùng] [vào] [cuộc đua] [giảm] [lãi suất] [cho] [vay] [nhằm] [giải] [ngân] [nguồn] [tiền] [đang] [được] [đánh giá] [là] [khá] [dư thừa] [trong] [kho].

- Loại bỏ từ dừng: Từ dừng (stop-words) dùng để chỉ các từ mà xuất hiện quá nhiều trong các văn bản của tồn tập kết quả, thường thì khơng giúp ích gì trong việc phân biệt nội dung của các tài liệu. Trong tiếng Anh, cĩ nhiều từ chỉ dùng để phục vụ cho biểu diễn cấu trúc chứ khơng biểu đạt nội dung của nĩ, như là “a”, “the” (mạo từ), “in” (giới từ), “but” (liên từ), động từ phổ biến cĩ dạng “to”, “be” và một số trạng từ và tính từđặc biệt được xem là những từ dừng. Trong Tiếng Việt, các từ “”, “hoặc”, “nhưng”, “cũng”… xuất hiện rất nhiều trong các văn bản, cũng được coi là các từ dừng. Luận văn tập trung nghiên cứu thực nghiệm trên tập dữ liệu tài chính ngân hàng, cho thấy những con số, dấu câu khơng cĩ ý nghĩa đối với quá trình phân lớp nên cũng coi đĩ là những từ dừng. Danh sách từ dừng được sử dụng đối với văn bản tài chính ngân hàng trong luận văn này sẽđược trình bày cuối luận văn.

Vì đặc điểm của từ dừng nên chúng được loại bỏ mà khơng ảnh hưởng đến các cơng việc biểu diễn văn bản tiếp theo. Hơn thế nữa giai đoạn xử lý loại bỏ từ dừng sẽ làm cho văn bản kết quả giữ lại được các từđặc trưng, loại bỏđược những từ gây nhiễu. Tách từ và loại bỏ từ dừng là hai bước trong quá trình tiền xử lý dữ liệu đầu vào cho bộ phân lớp, làm cho hiệu suất của quá trình phân lớp tăng.

                  ‐ 37 - 

Các văn bản sau khi được xử lý tách từ sẽ là đầu vào cho bước loại bỏ từ dừng. Thơng qua modulo loại bỏ từ dừng, các tiếng trong một từ sẽđược cách nhau bởi một kí tự gạch dưới ( _ ) và các từ sẽ cách nhau bởi một kí tự trắng. Ví dụ, nội dung của một đoạn văn bản sau khi loại bỏ từ dừng:

lãi_suất cho_vay mức Lãi_suất cho_vay đồng Việt_Nam thiết_lập mức Ngân_hàng Nhà_nước cơng_bố hạ lãi_suất cơ_bản VND xuống Vietcombank tạo đáy lãi_suất cho_vay mức Từ ngày_nay ngân_hàng thương_mại cuộc_đua giảm lãi_suất vay nhằm giải ngân nguồn tiền đánh_giá khá dư_thừa kho Mức lãi_suất cho_vay ưu_đãi đáy cũ thiết_lập

- Biểu diễn tất cả các văn bản dưới dạng 1 văn bản đặc trưng: Tất cả các văn bản sau khi đã được tách từ và loại bỏ từ dừng sẽ được biểu diễn dưới dạng một văn bản đặc trưng đầu vào cho bộ phân lớp như sau: nội dung của mỗi văn bản được biểu diễn trên một dịng và từ cuối cùng trên dịng đĩ là tên lớp. Ví dụ:

Nội dung văn bản A Tên_lớp_1 Nội dung văn bản B Tên_lớp_2

                  ‐ 38 - 

Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1. D liu và chương trình

Dữ liệu dùng để thực nghiệm cho bộ phân lớp văn bản về tài chính ngân hàng là các văn bản được lấy từ trang Web: http://www.vietbao.com

Tập dữ liệu cĩ tất cả 1075 tài liệu. Tồn bộ tập dữ liệu của thử nghiệm đều được gán nhãn bằng tay.

Tập dữ liệu được chia thành hai tập con rời nhau, tập dữ liệu huấn luyện và tập dữ liệu kiểm tra, theo tỉ lệtập dữ liệu huấn luyện : tập dữ liệu kiểm tra bằng 2:1.

Bng 1. Phân b d liu hc và kim tra

Tổng số tài liệu 1075

Tập dữ liệu học 717

Tập dữ liệu kiểm tra 358

Các phân lớp của dữ liệu được xậy dựng như đã giới thiệu ở chương 3, mục 3.2 bao gồm 5 lớp (huy động vốn, tín dụng, dịch vụ thanh tốn, ngoại tệ và chứng khốn). Dữ liệu dùng cho huấn luyện cùng số lượng tài liệu cho mỗi lớp được mơ tả trong Bảng 2.

                  ‐ 39 - 

Bng 2. Tp d liu hun luyn

STT Phân lớp Ký hiệu Số lượng tài liệu

1 Ngoại tệ NgoaiTe 273 2 Huy động vốn HuyDongVon 104 3 Dịch vụ thanh tốn DichVuThanhToan 60 4 Chứng khốn ChungKhoan 137 5 Tín dụng TinDung 143 Tổng số: 717

Tập dữ liệu dùng để kiểm tra được mơ tả trong bảng 3, số lượng tài liệu của mỗi lớp tỉ lệ với số lượng tài liệu trong tập dữ liệu dùng để huấn luyện.

Bng 3. Tp d liu kim tra

STT Phân lớp Ký hiệu Số lượng tài liệu

1 Ngoại tệ NgoaiTe 150

2 Huy động vốn HuyDongVon 34

3 Dich vụ thanh tốn DichVuThanhToan 34

4 Chứng khốn ChungKhoan 70

5 Tín dụng TinDung 70

Tổng số: 358

4.2. Mơi trường thc nghim

Mơi trường thực nghiệm: hệ điều hành Windows XP, vi xử lý Pentium 4, RAM 256.

                  ‐ 40 - 

Khĩa luận xây dựng chương trình thực hành phân lớp được viết trên ngơn ngữ java, mơi trường Jcreator, Elipse. Chương trình này tích hợp module tiền xử lý văn bản (do khĩa luận xây dựng) và sử dụng thư viện của tác giả Phan, X.H [23].

4.3. Thiết kế và kết qu thc nghim

Khĩa luận thử nghiệm theo mơ hình nguyên lý Entropy cực đại.

4.3.1. Thiết lập thơng số cho Entropy cực đại

Với thuật tốn Entropy cực đại, khĩa luận sử dụng thư viện của tác giả Phan Xuân Hiếu [23], việc sử dụng địi hỏi phải thiết lập một số thơng số cho mơ hình. Các thơng số này được lựa chọn qua nhiều lần thử nghiệm, chi tiết được mơ tảở bảng 4.

Bng 4. Tham s hun luyn mơ hình Entropy cc đại

Tham số Giá trị Mơ tả

numIterations 10 Số bước lặp trong quá trình huấn luyện.

fRareThreshold 0

Các mệnh đề mơ tả thơng tin ngữ cảnh phải xuất hiện nhiều hơn số này thì sẽ được dùng để xây dựng các đặc trưng. cpRareThreshold 0 Các đặc trưng xuất hiện nhiều hơn số này thì sẽ khơng bị loại bỏ khỏi tập dữ liệu huấn luyện. 4.3.2. Kết quả thực nghiệm

Tiến hành thực nghiệm trên tập dữ liệu huấn luyện với số lượng bước lặp là 10. Các kết quả phân lớp thu được khá khả quan với thời gian khoảng 0.4594 giây/lần và được mơ tả trong một số bảng biểu và đồ thị sau.

                  ‐ 41 - 

Bng 5. Kết qu 10 ln hun luyn vi Entropy cc đại

Độ chính xác Độ hồi tưởng F1

Bước lặp Thời

gian Avg 1 Avg 2 Avg 1 Avg 2 Avg1 Avg2

1 0.766 81.04 55.87 39.43 55.87 53.05 55.87 2 0.485 81.95 81.56 74.95 81.56 78.29 81.56 3 0.453 82.99 82.68 76.39 82.68 79.56 82.68 4 0.406 84.59 87.15 84.75 87.15 84.67 87.15 5 0.422 86.38 89.39 86.43 89.39 86.40 89.39 6 0.422 87.64 90.22 86.98 90.22 87.31 90.22 7 0.39 84.67 87.43 84.28 87.43 84.48 87.43 8 0.422 86.49 88.83 86.46 88.83 86.48 88.83 9 0.39 87.73 89.66 87.47 89.66 87.60 89.66 10 0.407 86.73 88.83 86.92 88.83 86.82 88.83 Trung bình 0.4563 84.821 84.162 79.406 84.162 81.466 84.162

                  ‐ 42 - 

Qua bảng trên, cho thấy kết quả khả quan nhất là ở bước lặp thứ 6 với độ đo F1 đạt 90.22% chi tiết bước lặp này như sau:

Bng 6. Kết qu ca bước lp th 6 Tên lớp Độ chính xác Độ hồi tưởng F1 NgoaiTe 96.64 96.00 96.32 HuyDongVon 71.43 73.53 72.46 DichVuThanhToan 96.77 88.24 92.31 ChungKhoan 87.84 92.86 90.28 TinDung 85.51 84.29 84.89 Avg1 87.64 86.98 87.31 Avg2 90.22 90.22 90.22

Trong bảng kết quả trên thì kết quả của phân lớp HuyDongVon là kém nhất với độ đo chính xác là 72.46% và tốt nhất là phân lớp NgoaiTe với độ đo chính xác là 96.32%.

                  ‐ 43 -  0 10 20 30 40 50 60 70 80 90 100 1 2 3 4 5 6 7 8 9 10 Bước lặp Độ đ o F1 F1-Avg2 F1-Avg1 Hình 7. Đồ th biu din s ph thuc ca độđo F1 vào s ln lp 0 10 20 30 40 50 60 70 80 90 100 1 2 3 4 5 6 7 8 9 10 Bước lặp Độ chính x ác c a phân l p Độ chính xác Độ hồi tưởng F1 Hình 8. Tng hp độđo qua 10 ln hun luyn

                  ‐ 44 -  96.32 72.46 92.31 90.28 84.89 0 20 40 60 80 100 120 Ngoa iTe HuyD ongV on Dich VuTha nhToa n Chung Khoan TinDu ng Lớp Độ đ o F1 Hình 9. Biu đồ biu din độđo F1 ca các lp trong ln lp th 6 4.4. Đánh giá kết qu thc nghim

Việc tiến hành thực nghiệm trên tập dữ liệu huấn luyện là 717 dữ liệu cho 5 phân lớp cho kết quả tốt về độ đo F1 là 90.22%. Cả 5 bộ phân lớp đều cho độ đo F1 gần 90%, đặc biệt, bộ phân lớp NgoaiTeđạt kết quả rất cao là 96.32% cho cả độ chính xác và độ hồi tưởng. Bộ phân lớp HuyDongVon thu được kết quả thấp nhất với độđo F1 là 72.46%.

Do số lượng dữ liệu mẫu cho từng lớp khá cân bằng nhau nên khả năng đốn nhận của bộ phân lớp là khá tốt. Nhưng muốn khả năng này cao hơn nữa thì tập dữ liệu huấn luyện cần gia tăng thêm về số lượng, đảm bảo cung cấp đầy đủ các ràng buộc từ dữ liệu cho mơ hình.

Như đã trình bày ở mục 2.4, tư tưởng chủ đạo của nguyên lý Entropy cực đại là thay vì thêm vào các ràng buộc mới, mơ hình tự tìm ra trong dữ liệu (tập câu hỏi mẫu) những ràng buộc và đặc trưng riêng cho từng phân lớp. Điều này làm cho sự phân lớp trong khi sử dụng mơ hình Entropy cực đại được đảm bảo cả khi tập dữ liệu khơng cĩ số lượng quá lớn và mỗi tài liệu chỉ chứa ít đặc trưng.

Từ kết quả của thực nghiệm cho thấy khi xây dựng bộ phân lớp văn bản tiếng Việt sử dụng mơ hình Entropy cực đại cho kết quả rất tốt.

                  ‐ 45 - 

KẾT LUẬN

Từ việc nghiên cứu lý thuyết và kết quả thực nghiệm cĩ thể khẳng định rằng bài tốn phân lớp văn bản thực sự cĩ vai trị ý nghĩa rất quan trọng trong việc tổ chức, quản lý cũng như tìm kiếm thơng tin trên nguồn tài nguyên lớn, đặc biệt với nguồn tài nguyên về lĩnh vực tài chính ngân hàng.

Sựđa dạng của các thuật tốn phân lớp dữ liệu làm cho việc lựa chọn thuật tốn để xây dựng module phân lớp văn bản cho từng ngơn ngữ trở nên khĩ khăn hơn.

Khĩa luận tiếp cận các vấn đề nĩi trên và nghiên cứu các thuật tốn phổ biến hiện nay, từ đĩ đưa ra phương pháp và thuật tốn áp dụng vào phân lớp dữ liệu ngân hàng tài chính trong tiếng Việt.

Về mặt nội dung, khĩa luận đã đạt được những kết quả sau:

-Nghiên cứu về bài tốn phân lớp văn bản: khái niệm, mơ hình, đánh giá phân lớp. Luận văn đã tập hợp và trình bày một số phương pháp phổ biến nhất hiện nay như k người láng giềng gần nhất, mơ hình cây quyết định, mơ hình Entropy cực đại, SVM. Sau đĩ trình bày ưu nhược điểm của từng phương pháp, từ đĩ đưa ra quyết định sử dụng mơ hình entropy cực đại khi áp dụng cho tiếng Việt.

-Xây dựng nhãn / lớp cho văn bản tài chính ngân hàng trong tiếng Việt.

-Xây dựng chương trình thi hành phân lớp văn bản được viết trên ngơn ngữ Java, mơi trường Eclipse được tích hợp từ module tiền xử lý văn bản (do khĩa luận xây dựng) và module phân lớp (khai thác mã nguồn bộ phân lớp Entropy cực đại). Kết quả thực nghiệm trên tập dữ liệu về lĩnh vực tài chính ngân hàng được crawler từ Web cho thấy tính khả thi của chương trình phân lớp văn bản sử dụng phương pháp Entropy cực đại với độđo F1 đạt 90.22%.

Bên cạnh đĩ, do thời gian và kiến thức cĩ hạn, khĩa luận vẫn cịn một vài hạn chế sau:

-Chương trình sử dụng thuật tốn Entropy cực đại cho bài tốn phân lớp văn bản mới thi hành trên một bộ dữ liệu tiếng Việt nên chưa đối sánh kết quả trên nhiều bộ dữ liệu. Chưa thi hành nhiều thuật tốn để chọn được phương pháp tốt.

Trong tương lại, khĩa luận sẽ tiếp tục hồn thiện mặt hạn chế đã đưa ra đĩ là sử dụng một số thuật tốn phân lớp khác với Entropy cực đại để tìm ra được thuật tốn hiệu nhất đối với bài tốn phân lớp dữ liệu tiếng Việt. Đồng thời, thử nghiệm trên nhiều bộ dữ liệu tiếng Việt khác nhau.

                  ‐ 46 - 

TÀI LIỆU THAM KHẢO Tài liu Tiếng Vit

[1]. Nguyễn Thị Hương Thảo, “Phân lớp phân cấp Taxonomy văn bản Web và ứng dụng”, Khĩa luận tốt nghiệp đại học, Đại học Cơng nghệ, ĐHQGHN, 2006.

[2]. Nguyễn Minh Tuấn, “Phân lớp câu hỏi hướng tới tìm kiếm ngữ nghĩa Tiếng Việt trong lĩnh vực y tế ”, Khĩa luận tốt nghiệp đại học, Đại học Cơng Nghệ, ĐHQGHN, 2008.

Tài liu Tiếng Anh

[3]. Aixin Sun, Ee-Peng Lim. Hierarchical Text Classification and Evaluation.

Proceedings of the 2001 IEEE International Conference on Data Mining (ICDM 2001) Pages 521-528, California, USA, November 2001.

[4]. Decision Tree, Analysis mindtools.com

[5]. T.M.Michell, Machine Learning, Mc Graw Hill

[6]. Nghiệp vụ ngân hàng. TS. Nguyễn Minh Kiều. Trường Đại Học Kinh Tế TPHCM. Nhà xuất bản Thống Kê, tháng 12-2005.

[7]. David J.C. MacKay. Information Theory, Inference, and Learning Algorthms Cambridge: Cambridge University Press, 2003. ISBN 0521642981

[8]. “Text Classification from Labeled and Unlabeled Documents using EM”. Machine Learning. Kluwer Academic Publishers, Boston. Manufactured in The Netherlands.

[9]. “An Extensive Empirical Study of Feature Selection Metrics for Text Classification”. George Forman, Intelligent Enterprise Technology Laboratory. HP Laboratories Palo Alto, HPL-2002-147 (R.1), November 20th , 2002*.

[10]. K. Nigam, J. Lafferty, and A. McCallum, "Using maximunm Entropy for text classification", Proceeding of the 16th International Joint Conference Workshop on Machine Learning for Information Filtering: 61-67 Stockholm, Sweden, 1999.

                  ‐ 47 - 

[11]. “Support Vector Machine Active Learning with Applications to Text Classification”. Simon Tong and Daphne Koller.

[12]. Lewis, D. and W.Gale: 1994, “A Sequential Algorithm for Training Text Classifiers”. In: Proceedings of the Seventeenth Annual International ACM- SIGIR Conference on Research and Development in Information Retrieval.pp. 3-12, Springer-Verlag.

[13]. Soumen Chakrabarti. Mining the web- discovering knowledge from Hypertext Data Morgan Kaufman Publishers, trang 183-188.

[14]. Pierre Baldi, Paolo Frasconi, Padhraic Smyth. Modeling the Internet and the Web: Probabilistic Methods and Algorithms. Published by John Wiley & Sons Ltd, The Southern Gate, Chichester West Sussex PO19 8SQ, England - 2003.

[15]. Nguyen Viet Cuong, Nguyen Thi Thuy Linh Ha, Quang Thuy and Phan Xuan Hieu (2006). A Maximum Entropy Model for Text Classification.

The International Conference on Internet Information Retrieval 2006:134- 139, Hankuk Aviation University, December 6, 2006, Goyang-si, Korea.

[16]. Sebastiani, F.:2001, “Machine Learning in Automated Text

Categorisation”. Technical Report IEI-B4-31-1999, Istituto di Elaborazione dell’Informazione.

[17]. Svetlane Kiritchenko. Hierarchical Text Categorization and Its Application to Bioinformatics. Ph.D thesis in Computer Science –

Một phần của tài liệu Khai phá dữ liệu (Trang 39)

Tải bản đầy đủ (PDF)

(54 trang)