Mô hình của bài toán phân lớp văn bản tài chính ngân hàng

Một phần của tài liệu Đề tài “Bài toán phân lớp văn bản và áp dụng phân lớp dữ liệu tài chính ngân hàng” ppt (Trang 40 - 44)

L ỜI MỞ ĐẦU

3.3.3.Mô hình của bài toán phân lớp văn bản tài chính ngân hàng

Để xây dựng được bài toán phân lớp văn bản dữ liệu về tài chính ngân hàng như trên, trước hết chúng ta cần thu thập dữ liệu và thực hiện việc tách từ trong các văn bản, loại bỏ từ dừng và biểu diễn các văn bản dưới dạng đặc trưng đầu vào cho mô hình Entropy cực đại. Các bước trong quá trình phân lớp văn bản được thực hiện như sau:

                  ‐ 35 - 

Hình 6. Mô hình bài toán phân lp d liu tài chính ngân hàng

Quá trình tiền xử lý (preprocessing) dữ liệu thông tin về tài chính ngân hàng gồm cách bước sau:

- Tách từ: Với một tập văn bản đầu vào, thông qua module tách từ, các từ trong văn bản sẽ được nhận biết, mỗi từ sẽđược biểu diễn trong một cặp dấu ngoặc vuông ( [ ] ) và cách nhau bởi một kí tự trắng. Module tách từ sẽ giúp chúng ta phân biệt được những từ có nghĩa, là cơ sở để loại bỏ từ dừng. Ví dụ, với từ

“cao cấp”, nếu văn bản không qua xử lý tách từ và trong bộ từ dừng có từ Tập văn bản đầu vào Module tách từ Tiếng Việt Module loại bỏtừdừng Biểu diễn tất cả các văn bản dưới dạng 1 văn bản đặc trưng Với mỗi một dòng trong văn bản đặc trưng Module phân lớp văn bản Tập văn bản kết quả Văn bản đã được phân lớp Lặp hết các dòng trong văn bản đặc trưng

                  ‐ 36 - 

“cao” thì khi qua xử lý loại bỏ từ dừng thì từ “cao” bị loại bỏ ngay lập tức mà không cần biết tới nghĩa của nó khi đi cùng từ đằng sau. Ngược lại, nếu văn bản được xử lý tách từ thì sẽ ko có trường hợp loại bỏ này xảy ra. Module tách từ làm cho quá trình loại bỏ từ dừng chính xác hơn.

Ví dụ, nội dung của một đoạn văn bản dữ liệu về tài chính ngân hàng sau khi qua bộ tách từ:

[Đáy] [lãi suất] [cho vay] [về] [mức] [12%] / [năm][Lãi suất] [cho vay] [bằng] [đồng] [Việt Nam] [vừa] [thiết lập] [đáy] [mới] [ở] [mức] [12%] / [năm] [sau] [khi] [Ngân hàng] [Nhà nước] [công bố] [hạ] [lãi suất] [cơ bản] [VND] [xuống] [còn] [11%] / [năm] .[Vietcombank] [tạo] [đáy] [lãi suất] [cho vay] [mới] [ở] [mức] [12%] / [năm][Từ] [nhiều] [ngày nay] , [các] [ngân hàng] [thương mại] [đã] [cùng] [vào] [cuộc đua] [giảm] [lãi suất] [cho] [vay] [nhằm] [giải] [ngân] [nguồn] [tiền] [đang] [được] [đánh giá] [là] [khá] [dư thừa] [trong] [kho].

- Loại bỏ từ dừng: Từ dừng (stop-words) dùng để chỉ các từ mà xuất hiện quá nhiều trong các văn bản của toàn tập kết quả, thường thì không giúp ích gì trong việc phân biệt nội dung của các tài liệu. Trong tiếng Anh, có nhiều từ chỉ dùng để phục vụ cho biểu diễn cấu trúc chứ không biểu đạt nội dung của nó, như là “a”, “the” (mạo từ), “in” (giới từ), “but” (liên từ), động từ phổ biến có dạng “to”, “be” và một số trạng từ và tính từđặc biệt được xem là những từ dừng. Trong Tiếng Việt, các từ “”, “hoặc”, “nhưng”, “cũng”… xuất hiện rất nhiều trong các văn bản, cũng được coi là các từ dừng. Luận văn tập trung nghiên cứu thực nghiệm trên tập dữ liệu tài chính ngân hàng, cho thấy những con số, dấu câu không có ý nghĩa đối với quá trình phân lớp nên cũng coi đó là những từ dừng. Danh sách từ dừng được sử dụng đối với văn bản tài chính ngân hàng trong luận văn này sẽđược trình bày cuối luận văn.

Vì đặc điểm của từ dừng nên chúng được loại bỏ mà không ảnh hưởng đến các công việc biểu diễn văn bản tiếp theo. Hơn thế nữa giai đoạn xử lý loại bỏ từ dừng sẽ làm cho văn bản kết quả giữ lại được các từđặc trưng, loại bỏđược những từ gây nhiễu. Tách từ và loại bỏ từ dừng là hai bước trong quá trình tiền xử lý dữ liệu đầu vào cho bộ phân lớp, làm cho hiệu suất của quá trình phân lớp tăng.

                  ‐ 37 - 

Các văn bản sau khi được xử lý tách từ sẽ là đầu vào cho bước loại bỏ từ dừng. Thông qua modulo loại bỏ từ dừng, các tiếng trong một từ sẽđược cách nhau bởi một kí tự gạch dưới ( _ ) và các từ sẽ cách nhau bởi một kí tự trắng. Ví dụ, nội dung của một đoạn văn bản sau khi loại bỏ từ dừng:

lãi_suất cho_vay mức Lãi_suất cho_vay đồng Việt_Nam thiết_lập mức Ngân_hàng Nhà_nước công_bố hạ lãi_suất cơ_bản VND xuống Vietcombank tạo đáy lãi_suất cho_vay mức Từ ngày_nay ngân_hàng thương_mại cuộc_đua giảm lãi_suất vay nhằm giải ngân nguồn tiền

đánh_giá khá dư_thừa kho Mức lãi_suất cho_vay ưu_đãi đáy cũ thiết_lập

- Biểu diễn tất cả các văn bản dưới dạng 1 văn bản đặc trưng: Tất cả các văn bản sau khi đã được tách từ và loại bỏ từ dừng sẽ được biểu diễn dưới dạng một văn bản đặc trưng đầu vào cho bộ phân lớp như sau: nội dung của mỗi văn bản được biểu diễn trên một dòng và từ cuối cùng trên dòng đó là tên lớp. Ví dụ:

Nội dung văn bản A Tên_lớp_1 Nội dung văn bản B Tên_lớp_2

                  ‐ 38 - 

Chương 4. THC NGHIM VÀ ĐÁNH GIÁ

Một phần của tài liệu Đề tài “Bài toán phân lớp văn bản và áp dụng phân lớp dữ liệu tài chính ngân hàng” ppt (Trang 40 - 44)