Định nghĩa nguyên lý entropy cực đại

Một phần của tài liệu Đề tài “Bài toán phân lớp văn bản và áp dụng phân lớp dữ liệu tài chính ngân hàng” ppt (Trang 32 - 55)

L ỜI MỞ ĐẦU

2.4.1. Định nghĩa nguyên lý entropy cực đại

Có rất nhiều thuật toán của phương pháp học giám sát đã được đưa ra để giải quyết bài toán phân lớp văn bản như giả thiết Naïve Bayes [Lewis, 1998; McCallum and Nigam, 1998; Sahami, 1996], K - người láng giềng gần nhất [Yang, 1999], máy hỗ trợ vector [Joachims, 1998; Dumais et al., 1998], boosting [Schapire and Singer, 1996], Các thuật toán học luật [Cohen and Singer, 1996; Slattery và Craven, 1998]. Tuy nhiên, trong sốđó chưa có một thuật toán nào được chứng minh là làm tốt hơn các thuật toán khác trên nhiều miền ứng dụng.

Sử dụng kỹ thuật Entropy cực đại cho bài toán phân lớp văn bản như là một cách thay thế các thuật toán đã được dùng trước đây. Entropy cực đại đã được sử dụng rộng rãi cho nhiều ngôn ngữ tự nhiên. Entropy cực đại đã chứng tỏđược là một thuật toán hiệu quả và cạnh tranh cao trong nhiều miền ứng dụng.

Đối với bài toán phân lớp dữ liệu, Entropy cực đại là một kỹ thuật dùng để ước lượng xác suất các phân phối từ dữ liệu. Tư tưởng chủđạo của nguyên lý Entropy cực đại là “mô hình phân phối đối với mỗi tập dữ liệu và tập các ràng buộc đi cùng phải đạt được độ cân bằng / đều nhất có thể” [15]. Tập dữ liệu học (tức là tập gồm các dữ liệu đã được gán nhãn) được sử dụng để tìm ra các ràng buộc cho mô hình, đó là cơ sở để ước lượng phân phối cho từng lớp cụ thể. Những ràng buộc này được thể hiện bởi các giá trị ước lượng được của các đặc trưng. Từ các ràng buộc sinh ra bởi tập dữ liệu này, mô hình sẽ tiến hành tính toán để có được một phân phối cho Entropy cực đại [10], [15].

Ví dụ một mô hình Entropy cực đại: “Giả sử với bộ phân lớp về lĩnh vực kinh tế trên báo VnEconomy có bốn lớp chính được chỉ ra là ngân_hàng, chứng_khoán,

bất_động_sản, doanh_nghiệp. Các thống kê dữ liệu chỉ ra rằng trung bình 70% các tài liệu trong lớp ngân_hàng có chứa từvay_vốn. Như vậy một cách trực quan có thể thấy

                  ‐ 27 - 

rằng nếu một tài liệu D có chứa từvay_vốn thì xác suất được phân vào lớp ngân_hàng

là 70% và xác suất phân vào ba lớp còn lại là 10% đối với mỗi lớp. Nếu tài liệu D không chứa từvay_vốn thì xác suất phân phối của D là 25% đều cho mỗi lớp.”

Trong ví dụ trên, “nếu tài liệu chứa cụm từvay_vốn thì có xác suất phân vào lớp

ngân_hàng là 70%” là một ràng buộc của mô hình.

2.4.2. Các ràng buộc và đặc trưng

Trong nguyên lý Entropy cực đại, chúng ta sử dụng tập dữ liệu mẫu làm để thiết lập ràng buộc cho phân phối điều kiện. Với mỗi ràng buộc được mô tả bởi một đặc tính của tập dữ liệu học. Một đặc trưng trong mô hình Entropy cực đại được biểu diễn bởi một hàm fi(d, c), trong đó d là tài liệu và c là lớp. Entropy cực đại cho phép giới hạn mô hình phân phối để có thu các giá trị kỳ vọng cho mỗi đặc trưng của tập dữ liệu. Vì vậy, ta có thể đặt xác suất phân phối của dữ liệu d cho lớp c là P(c|d) thỏa mãn phương trình sau:

Trong quá trình huấn luyện, phân phối tài liệu P(d) là không biết và chúng ta không cần quan tâm tới nó. Vì vậy, ta chỉ sử dụng tập dữ liệu mẫu như là một điều kiện để phân phối dữ liệu tuân theo ràng buộc sau:

Như vậy khi sử dụng entropy cực đại, bước đầu tiên là cần xác định tập các hàm đặc tính sẽ sử dụng cho phân lớp. Sau đó, với mỗi đặc tính, ước lượng giá trị kỳ vọng thông qua tập dữ liệu học và tạo ra các ràng buộc cho mô hình phân phối.

2.4.3. Mô hình Entropy cực đại

Mô hình xác suất Entropy cực đại cung cấp một cách đơn giản để kết hợp các đặc trưng của tài liệu trong những ngữ cảnh khác nhau để ước lượng xác suất của một số lớp xuất hiện cùng với một số ngữ cảnh này. Tư tưởng cơ bản của phương pháp Entropy cực đại là tìm ra một mô hình có phân phối xác suất thỏa mãn mọi ràng buộc quan sát được từ dữ liệu mà không đưa thêm bất kì một giả thiết nào khác. Theo nguyên lý Entropy cực đại, phân phối cần đáp ứng dữ liệu quan sát và làm cực đại độ đo Entropy có điều kiện:

                  ‐ 28 -  ( ) ( ) ( ) ( ) , | log | ≡ −∑ % c d H p p c p c d p d c ( ) * a r g m a x ∈ = p C p H p Trong đó p* là phân xác suất tối ưu.

Mô hình Entropy cực đại xây dựng các đặc trưng từ tập dữ liệu huấn luyện. Mỗi đặc trưng được biểu diễn dưới một hàm nhận một trong hai giá trịđúng hoặc sai. Tập các ràng buộc sẽđược thiết lập từ các đặc trưng này. Một ràng buộc là một điều kiện từ dữ liệu buộc mô hình phải thỏa mãn. Mỗi đặc trưng fi được gán cho một trọng số

i

λ . Khi đó, bài toán phân lớp được đưa về bài toán ước lượng xác suất có điều kiện:

Trong đó Z(d) là biểu thức chuẩn hóa để đảm bảo điều kiện ∑p(c|d)=1. Từđó đưa ra công thức sau:

2.3.4. Entropy cực đại cho phân lớp văn bản

Để áp dụng mô hình Entropy cực đại cho một miền, chúng ta cần phải chọn ra một tập các đặc trung để sử dụng thiết lập các ràng buộc. Đối với phân lớp văn bản với mô hình Entropy cực đại, chúng ta sử dụng số lượng từ như là các đặc trưng. Trong nghiên cứu này cho với mỗi từ kết hợp, ta đưa ra một đặc tính như sau:

Trong đó, N(d, w) là số lần từ w xuất hiện trong tài liệu d, và N(d) là số lượng các từ có trong tài liệu d.

Trong công thức này, nếu một từ xuất hiện thường xuyên trong một tài liệu, ta sẽ tính trọng số cho các cặp từ này và thấy rằng trọng số đó sẽ cao hơn so với trọng số của các từ ghép trong tài liệu. Trong hầu hết ngôn ngữ tự nhiên sử dụng Entropy cực đại thì các đặc trưng thường là đặc trưng nhị phân. Trong phân lớp văn bản, chúng ta mong muốn các đặc trưng được tính bằng số lần suất hiện của một từ trong một tài liệu có thể củng cố cho phân lớp.

                  ‐ 29 - 

Một trong những khía cạnh đặc biệt của Entropy cực đại là nó không bị bất kỳ giả thuyết độc lập nào ràng buộc. Ví dụ, với cụm từ “Buenos Aires”, hai từ này hầu như luôn xuất hiện động thời cùng nhau.Với giả thiết Naïve Bayes sẽ đếm số từ xuất hiện hai lần trong cụm từ này. Mặt khác, Entropy cực đại sẽ giảm giá trị trọng số

i

λ của mỗi đặc trưng đi một nửa. Một trong những hệ của việc không phụ thuộc vào bất kỳ giả thuyết độc lập nào đó là các sơđồ và các cụm từ có thểđược thêm vào các đặc trưng của Entropy cực đại một cách dễ dàng mà không cần lo lắng rằng các đặc tính này chồng lên nhau.

¾ Ưu điểm của mô hình Entropy cực đại:

- Cho phép khả năng hầu như không hạn chế trong việc biểu diễn các vấn đề phức tạp về tri thức thông qua dạng các hàm đặc trưng.

- Có thể giải quyết nhiều dạng thuộc tính khác nhau. - Các giả thiết không cần phải độc lập với nhau.

                  ‐ 30 - 

Chương 3. BÀI TOÁN PHÂN LP VĂN BN TÀI CHÍNH

NGÂN HÀNG TING VIT

3.1. Mt s đặc trưng ca d liu tài chính ngân hàng trong tiếng

Vit

Luận văn tập trung nghiên cứu trên tập các văn bản về lĩnh vực tài chính ngân hàng Việt Nam với ngôn ngữ Tiếng Việt. Bất kỳ một ngôn ngữ nào cũng có các đặc trưng riêng, hơn nữa Tiếng Việt còn là ngôn ngữ rất đa dạng, phong phú về từ ngữ, ngữ pháp… Một sốđặc điểm của Tiếng Việt được liệt kê dưới đây:

- Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được phát âm tách rời nhau và được thể hiện bằng một chữ viết.

- Đặc điểm ngữ âm: Trong Tiếng Việt có một loại đơn vịđặc biệt gọi là “tiếng”. Về mặt ngữ âm mỗi tiếng là một âm tiết.

- Đặc điểm từ vựng: mỗi tiếng, nói chung, là một yếu tố có nghĩa. Tiếng là đơn vị cơ sở của hệ thống các đơn vị có nghĩa của Tiếng Việt. Từ tiếng người ta tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng nhờ phương pháp ghép và láy từ...

Vốn từ vựng tối thiểu của Tiếng Việt phần lớn là các từ đơn tiết (một âm tiết, một tiếng). Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới nột cách dễ dàng đã tạo điều kiện thuận lợi cho sự phát triển vốn từ, vừa phong phú về số lượng, vừa đa dạng trong hoạt động. Cùng một sự vật, hiện tượng, một hoạt động hay một đặc trưng, có thểđược biểu thị theo nhiều cách khác nhau. - Đặc điểm ngữ pháp: Từ của Tiếng Việt không biến đổi hình thái khi kết hợp

các từđể làm thành kết cấu như ngữ, câu Tiếng Việt rất coi trọng trật tự từ và hư từ.

Việc sắp xếp các từ theo một trật tự nhất định là cách chủ yếu để biểu thị các quan hệ cú pháp. Trong Tiếng Việt, nói “Anh ta lại đến” là khác với nói “Lại đến anh ta”. Khi các từ cùng loại kết hợp với nhau theo quan hệ chính phụ thì từ đứng trước giữ vai trò chính, từ đứng sau giữ vai trò phụ. Nhờ trật tự kết hợp từ mà ta thấy “cảm tình” khác với “tình cảm”. Trật tự chủ ngữ đứng trước, vị ngữđứng sau là trật tự phổ biến của kết cấu câu Tiếng Việt.

                  ‐ 31 - 

Phương thức hư từ cũng là phương pháp phổ biến trong Tiếng Việt. Nhờ hư từ mà tổ hợp từ “anh của em” khác với tổ hợp từ “anh và em” hay “anh vì em”. Ngoài những đặc điểm chung của Tiếng Việt, văn bản tài chính ngân hàng Việt Nam còn có những đặc điểm riêng, chẳng hạn có chứa những từ, cụm từ đặc trưng như: “ngân hàng”, “cho vay”, “lãi suất vay vốn”, “lãi suất tiết kiệm”, “cổ phiếu”, “thị

trường tiền tệ”, “huy động vốn”…

3.2. Xây dng mt s lp trong lĩnh vc tài chính ngân hàng

Trong phần này, khóa luận sẽđi xây dựng một tập các nhãn (lớp) trên lĩnh vực tài chính ngân hàng.

Thông qua việc khảo sát dữ liệu về tài chính ngân hàng được thu thập từ các trang Web và quá trình nghiên cứu về nghiệp vụ ngân hàng, tài chính Việt Nam [6], khóa luận xin đề xuất một tập các nhãn (lớp) đểđưa ra thử nghiệm ban đầu, với những khái niệm cơ bản sau:

ƒ Huy động vốn: Ngân hàng được huy động vốn dưới các hình thức sau:

- Nhận tiền gửi của tổ chức kinh tế, cá nhân và các tổ chức tín dụng khác dưới hình thức tiền gửi không kỳ hạn, tiền gửi có kỳ hạn, tiền gửi tiết kiệm và các loại tiền gửi khác.

- Phát hành chứng chỉ tiền gửi, trái phiếu và giấy tờ có giá khác để huy động vốn của tổ chức, cá nhân trong nước và nước ngoài.

- Đi vay vốn của các tổ chức tín dụng trong và ngoài nước. - Vay vốn ngắn hạn của Ngân hàng Nhà Nước.

- Các hình thức huy động vốn khác theo quy định của Ngân hàng Nhà Nước.

¾ Dữ liệu thuộc lớp huy động vốn gồm những văn bản có nội dung liên quan tới một trong những hoạt động huy động vốn vừa được nêu như: thông tin về lãi suất gửi tiền tiết kiệm, các hình thức vay vốn của ngân hàng đối với các tổ chức tín dụng khác…

ƒ Tín dụng: Ngân hàng thương mại được cấp tín dụng cho tổ chức, cá nhân dưới các hình thức cho vay, chiết khấu thương phiếu và giấy tờ có giá khác, bảo lãnh, cho thuê tài chính và các hình thức khác theo quy định của Ngân hàng Nhà Nước. Trong các hoạt động cấp tín dụng, cho vay là hoạt động quan trọng và chiếm tỷ trọng lớn nhất.

                  ‐ 32 - 

- Cho vay: Ngân hàng thương mại được cho các tổ chức, cá nhân vay vốn dưới các hình thức sau:

o Cho vay ngắn hạn (dưới 12 tháng) nhằm đáp ứng nhu cầu vốn cho sản xuất, kinh doanh, dịch vụ và đời sống.

o Cho vay trung hạn, dài hạn (trên 12 tháng) để thực hiện các dự án đầu tư phát triển sản xuất, kinh doanh, dịch vụ và đời sống.

- Bảo lãnh: Ngân hàng thương mại được bảo lãnh vay, bảo lãnh thanh toán, bảo lãnh thực hiện hợp đồng, bảo lãnh đấu thầu và các hình thức bảo lãnh ngân hàng khác bằng uy tín và bằng khả năng tài chính của mình đối với một khách hàng thương mại không được vượt quá tỷ lệ so với vốn tự có của ngân hàng thương mại.

- Chiết khấu: Ngân hàng thương mại được chiết khấu thương phiếu và các giấy tờ có giá ngắn hạn khác đối với tổ chức, cá nhân và có thể tái chiết khấu các thương phiếu và các giấy tờ có giá ngắn hạn khác đối với tổ chức tín dụng khác.

- Cho thuê tài chính: Ngân hàng thương mại được hoạt động cho thuê tài chính nhưng phải thành lập công ty cho thuê tài chính riêng. Việc thành lập, tổ chức và hoạt động của công ty cho thuê tài chính thực hiện theo Nghị định của Chính Phủ về tổ chức và hoạt động của công ty cho thuê tài chính.

¾ Dữ liệu thuộc lớp tín dụng gồm những văn bản mang thông tin về hoạt động cho vay vốn, bảo lãnh, chiết khấu, cho thuê tài chính của ngân hàng đối với cá nhân và tổ chức.

ƒ Dịch vụ thanh toán: Để thực hiện các dịch vụ thanh toán giữa các doanh nghiệp thông qua ngân hàng, ngân hàng thương mại được mở tài khoản tiền gửi thanh toán cho khách hàng trong và ngoài nước. Hoạt động dịch vụ thanh toán của ngân hàng thương mại bao gồm các hoạt động sau:

- Cung cấp các phương tiện thanh toán như thẻ ghi nợ (debit card), thẻ tín dụng (credit card) có phạm vi thanh toán có thể thực thanh toán trong và ngoài nước.

- Thực hiện các dịch vụ thanh toán theo nhu cầu của khách hàng (ủy nhiệm chi, thanh toán lương, thanh toán hóa đơn,…).

                  ‐ 33 - 

- Thực hiện dịch vụ thu hộ và chi hộ trong nội bộ ngân hàng hoặc liên ngân hàng trong nước.

- Thực hiện các dịch vụ thanh toán khác theo qui định của Ngân hàng Nhà Nước.

- Thực hiện các dịch vụ thanh toán quốc tếđối với khách hàng mở thư tín dụng (letter credit).

- Thực hiện dịch vụ chuyển tiền trong và ngoài nước.

¾ Dữ liệu thuộc lớp dịch vụ thanh toán gồm những văn bản mang thông tin về các hoạt động dịch vụ thanh toán của ngân hàng như: cung cấp các phương tiện thanh toán, các dịch vụ liên quan đến thanh toán nhưđã nêu ở trên…

ƒ Ngoại tệ: Gồm các thông tin về việc ngân hàng thương mại trực tiếp kinh doanh hoặc thành lập công ty trực thuộc để kinh doanh ngoại hối, tiền tệ và vàng trên thị trường trong nước và thị trường quốc tế.

ƒ Chứng khoán: Tất cả các ngân hàng thương mại muốn kinh doanh chứng khoán đều phải lập công ty trực thuộc ngân hàng. Chẳng hạn, các ngân hàng ngoại quốc doanh như Vietcombank, Incombank, Ngân hàng Đầu tư và Phát triển, Ngân hàng Nông nghiệp và phát triển nông thôn,… đều có thành lập công ty chứng khoán. Cơ sở hạ tầng của thị trường chứng khoán bao gồm những hệ thống và tổ chức cung cấp phương tiện cho giao dịch, thanh toán, ký gửi và lưu ký cổ phiếu, trái phiếu. Ngoài ra, còn bao gồm cả những quy định pháp lý làm cơ sở cho giao dịch và quản lý thị trường cổ phiếu.

¾ Dữ liệu thuộc lớp chứng khoán gồm những văn bản mang thông tin về giao dịch, thanh toán, ký gửi, lưu ký cổ phiếu, trái phiếu của ngân hàng trên thị trường chứng khoán.

3.3. Bài toán phân lp văn bn tài chính ngân hàng trong Tiếng Vit

Một phần của tài liệu Đề tài “Bài toán phân lớp văn bản và áp dụng phân lớp dữ liệu tài chính ngân hàng” ppt (Trang 32 - 55)

Tải bản đầy đủ (PDF)

(55 trang)