Định nghĩa nguyên lý entropy cực đại

Một phần của tài liệu Khai phá dữ liệu (Trang 31)

L ỜI MỞ ĐẦU

2.4.1. Định nghĩa nguyên lý entropy cực đại

Cĩ rất nhiều thuật tốn của phương pháp học giám sát đã được đưa ra để giải quyết bài tốn phân lớp văn bản như giả thiết Nạve Bayes [Lewis, 1998; McCallum and Nigam, 1998; Sahami, 1996], K - người láng giềng gần nhất [Yang, 1999], máy hỗ trợ vector [Joachims, 1998; Dumais et al., 1998], boosting [Schapire and Singer, 1996], Các thuật tốn học luật [Cohen and Singer, 1996; Slattery và Craven, 1998]. Tuy nhiên, trong sốđĩ chưa cĩ một thuật tốn nào được chứng minh là làm tốt hơn các thuật tốn khác trên nhiều miền ứng dụng.

Sử dụng kỹ thuật Entropy cực đại cho bài tốn phân lớp văn bản như là một cách thay thế các thuật tốn đã được dùng trước đây. Entropy cực đại đã được sử dụng rộng rãi cho nhiều ngơn ngữ tự nhiên. Entropy cực đại đã chứng tỏđược là một thuật tốn hiệu quả và cạnh tranh cao trong nhiều miền ứng dụng.

Đối với bài tốn phân lớp dữ liệu, Entropy cực đại là một kỹ thuật dùng để ước lượng xác suất các phân phối từ dữ liệu. Tư tưởng chủđạo của nguyên lý Entropy cực đại là “mơ hình phân phối đối với mỗi tập dữ liệu và tập các ràng buộc đi cùng phải đạt được độ cân bằng / đều nhất cĩ thể” [15]. Tập dữ liệu học (tức là tập gồm các dữ liệu đã được gán nhãn) được sử dụng để tìm ra các ràng buộc cho mơ hình, đĩ là cơ sở để ước lượng phân phối cho từng lớp cụ thể. Những ràng buộc này được thể hiện bởi các giá trị ước lượng được của các đặc trưng. Từ các ràng buộc sinh ra bởi tập dữ liệu này, mơ hình sẽ tiến hành tính tốn để cĩ được một phân phối cho Entropy cực đại [10], [15].

Ví dụ một mơ hình Entropy cực đại: “Giả sử với bộ phân lớp về lĩnh vực kinh tế trên báo VnEconomy cĩ bốn lớp chính được chỉ ra là ngân_hàng, chứng_khốn,

bất_động_sản, doanh_nghiệp. Các thống kê dữ liệu chỉ ra rằng trung bình 70% các tài liệu trong lớp ngân_hàng cĩ chứa từvay_vốn. Như vậy một cách trực quan cĩ thể thấy

                  ‐ 27 - 

rằng nếu một tài liệu D cĩ chứa từvay_vốn thì xác suất được phân vào lớp ngân_hàng

là 70% và xác suất phân vào ba lớp cịn lại là 10% đối với mỗi lớp. Nếu tài liệu D khơng chứa từvay_vốn thì xác suất phân phối của D là 25% đều cho mỗi lớp.”

Trong ví dụ trên, “nếu tài liệu chứa cụm từvay_vốn thì cĩ xác suất phân vào lớp

ngân_hàng là 70%” là một ràng buộc của mơ hình.

2.4.2. Các ràng buộc và đặc trưng

Trong nguyên lý Entropy cực đại, chúng ta sử dụng tập dữ liệu mẫu làm để thiết lập ràng buộc cho phân phối điều kiện. Với mỗi ràng buộc được mơ tả bởi một đặc tính của tập dữ liệu học. Một đặc trưng trong mơ hình Entropy cực đại được biểu diễn bởi một hàm fi(d, c), trong đĩ d là tài liệu và c là lớp. Entropy cực đại cho phép giới hạn mơ hình phân phối để cĩ thu các giá trị kỳ vọng cho mỗi đặc trưng của tập dữ liệu. Vì vậy, ta cĩ thể đặt xác suất phân phối của dữ liệu d cho lớp c là P(c|d) thỏa mãn phương trình sau:

Trong quá trình huấn luyện, phân phối tài liệu P(d) là khơng biết và chúng ta khơng cần quan tâm tới nĩ. Vì vậy, ta chỉ sử dụng tập dữ liệu mẫu như là một điều kiện để phân phối dữ liệu tuân theo ràng buộc sau:

Như vậy khi sử dụng entropy cực đại, bước đầu tiên là cần xác định tập các hàm đặc tính sẽ sử dụng cho phân lớp. Sau đĩ, với mỗi đặc tính, ước lượng giá trị kỳ vọng thơng qua tập dữ liệu học và tạo ra các ràng buộc cho mơ hình phân phối.

2.4.3. Mơ hình Entropy cực đại

Mơ hình xác suất Entropy cực đại cung cấp một cách đơn giản để kết hợp các đặc trưng của tài liệu trong những ngữ cảnh khác nhau để ước lượng xác suất của một số lớp xuất hiện cùng với một số ngữ cảnh này. Tư tưởng cơ bản của phương pháp Entropy cực đại là tìm ra một mơ hình cĩ phân phối xác suất thỏa mãn mọi ràng buộc quan sát được từ dữ liệu mà khơng đưa thêm bất kì một giả thiết nào khác. Theo nguyên lý Entropy cực đại, phân phối cần đáp ứng dữ liệu quan sát và làm cực đại độ đo Entropy cĩ điều kiện:

                  ‐ 28 -  ( ) ( ) ( ) ( ) , | log | ≡ −∑ % c d H p p c p c d p d c ( ) * a r g m a x ∈ = p C p H p Trong đĩ p* là phân xác suất tối ưu.

Mơ hình Entropy cực đại xây dựng các đặc trưng từ tập dữ liệu huấn luyện. Mỗi đặc trưng được biểu diễn dưới một hàm nhận một trong hai giá trịđúng hoặc sai. Tập các ràng buộc sẽđược thiết lập từ các đặc trưng này. Một ràng buộc là một điều kiện từ dữ liệu buộc mơ hình phải thỏa mãn. Mỗi đặc trưng fi được gán cho một trọng số

i

λ . Khi đĩ, bài tốn phân lớp được đưa về bài tốn ước lượng xác suất cĩ điều kiện:

Trong đĩ Z(d) là biểu thức chuẩn hĩa để đảm bảo điều kiện ∑p(c|d)=1. Từđĩ đưa ra cơng thức sau:

2.3.4. Entropy cực đại cho phân lớp văn bản

Để áp dụng mơ hình Entropy cực đại cho một miền, chúng ta cần phải chọn ra một tập các đặc trung để sử dụng thiết lập các ràng buộc. Đối với phân lớp văn bản với mơ hình Entropy cực đại, chúng ta sử dụng số lượng từ như là các đặc trưng. Trong nghiên cứu này cho với mỗi từ kết hợp, ta đưa ra một đặc tính như sau:

Trong đĩ, N(d, w) là số lần từ w xuất hiện trong tài liệu d, và N(d) là số lượng các từ cĩ trong tài liệu d.

Trong cơng thức này, nếu một từ xuất hiện thường xuyên trong một tài liệu, ta sẽ tính trọng số cho các cặp từ này và thấy rằng trọng số đĩ sẽ cao hơn so với trọng số của các từ ghép trong tài liệu. Trong hầu hết ngơn ngữ tự nhiên sử dụng Entropy cực đại thì các đặc trưng thường là đặc trưng nhị phân. Trong phân lớp văn bản, chúng ta mong muốn các đặc trưng được tính bằng số lần suất hiện của một từ trong một tài liệu cĩ thể củng cố cho phân lớp.

                  ‐ 29 - 

Một trong những khía cạnh đặc biệt của Entropy cực đại là nĩ khơng bị bất kỳ giả thuyết độc lập nào ràng buộc. Ví dụ, với cụm từ “Buenos Aires”, hai từ này hầu như luơn xuất hiện động thời cùng nhau.Với giả thiết Nạve Bayes sẽ đếm số từ xuất hiện hai lần trong cụm từ này. Mặt khác, Entropy cực đại sẽ giảm giá trị trọng số

i

λ của mỗi đặc trưng đi một nửa. Một trong những hệ của việc khơng phụ thuộc vào

bất kỳ giả thuyết độc lập nào đĩ là các sơđồ và các cụm từ cĩ thểđược thêm vào các đặc trưng của Entropy cực đại một cách dễ dàng mà khơng cần lo lắng rằng các đặc tính này chồng lên nhau.

¾ Ưu điểm của mơ hình Entropy cực đại:

- Cho phép khả năng hầu như khơng hạn chế trong việc biểu diễn các vấn đề phức tạp về tri thức thơng qua dạng các hàm đặc trưng.

- Cĩ thể giải quyết nhiều dạng thuộc tính khác nhau. - Các giả thiết khơng cần phải độc lập với nhau.

                  ‐ 30 - 

Chương 3. BÀI TỐN PHÂN LỚP VĂN BẢN TÀI CHÍNH NGÂN HÀNG TIẾNG VIỆT

3.1. Mt s đặc trưng ca d liu tài chính ngân hàng trong tiếng Vit Vit

Luận văn tập trung nghiên cứu trên tập các văn bản về lĩnh vực tài chính ngân hàng Việt Nam với ngơn ngữ Tiếng Việt. Bất kỳ một ngơn ngữ nào cũng cĩ các đặc trưng riêng, hơn nữa Tiếng Việt cịn là ngơn ngữ rất đa dạng, phong phú về từ ngữ, ngữ pháp… Một sốđặc điểm của Tiếng Việt được liệt kê dưới đây:

- Tiếng Việt thuộc ngơn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được phát âm tách rời nhau và được thể hiện bằng một chữ viết.

- Đặc điểm ngữ âm: Trong Tiếng Việt cĩ một loại đơn vịđặc biệt gọi là “tiếng”. Về mặt ngữ âm mỗi tiếng là một âm tiết.

- Đặc điểm từ vựng: mỗi tiếng, nĩi chung, là một yếu tố cĩ nghĩa. Tiếng là đơn vị cơ sở của hệ thống các đơn vị cĩ nghĩa của Tiếng Việt. Từ tiếng người ta tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng nhờ phương pháp ghép và láy từ...

Vốn từ vựng tối thiểu của Tiếng Việt phần lớn là các từ đơn tiết (một âm tiết, một tiếng). Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới nột cách dễ dàng đã tạo điều kiện thuận lợi cho sự phát triển vốn từ, vừa phong phú về số lượng, vừa đa dạng trong hoạt động. Cùng một sự vật, hiện tượng, một hoạt động hay một đặc trưng, cĩ thểđược biểu thị theo nhiều cách khác nhau. - Đặc điểm ngữ pháp: Từ của Tiếng Việt khơng biến đổi hình thái khi kết hợp

các từđể làm thành kết cấu như ngữ, câu Tiếng Việt rất coi trọng trật tự từ và hư từ.

Việc sắp xếp các từ theo một trật tự nhất định là cách chủ yếu để biểu thị các quan hệ cú pháp. Trong Tiếng Việt, nĩi “Anh ta lại đến” là khác với nĩi “Lại đến anh ta”. Khi các từ cùng loại kết hợp với nhau theo quan hệ chính phụ thì từ đứng trước giữ vai trị chính, từ đứng sau giữ vai trị phụ. Nhờ trật tự kết hợp từ mà ta thấy “cảm tình” khác với “tình cảm”. Trật tự chủ ngữ đứng trước, vị ngữđứng sau là trật tự phổ biến của kết cấu câu Tiếng Việt.

                  ‐ 31 - 

Phương thức hư từ cũng là phương pháp phổ biến trong Tiếng Việt. Nhờ hư từ mà tổ hợp từ “anh của em” khác với tổ hợp từ “anh và em” hay “anh vì em”. Ngồi những đặc điểm chung của Tiếng Việt, văn bản tài chính ngân hàng Việt Nam cịn cĩ những đặc điểm riêng, chẳng hạn cĩ chứa những từ, cụm từ đặc trưng như: “ngân hàng”, “cho vay”, “lãi suất vay vốn”, “lãi suất tiết kiệm”, “cổ phiếu”, “thị trường tiền tệ”, “huy động vốn”…

3.2. Xây dng mt s lp trong lĩnh vc tài chính ngân hàng

Trong phần này, khĩa luận sẽđi xây dựng một tập các nhãn (lớp) trên lĩnh vực tài chính ngân hàng.

Thơng qua việc khảo sát dữ liệu về tài chính ngân hàng được thu thập từ các trang Web và quá trình nghiên cứu về nghiệp vụ ngân hàng, tài chính Việt Nam [6], khĩa luận xin đề xuất một tập các nhãn (lớp) đểđưa ra thử nghiệm ban đầu, với những khái niệm cơ bản sau:

ƒ Huy động vốn: Ngân hàng được huy động vốn dưới các hình thức sau:

- Nhận tiền gửi của tổ chức kinh tế, cá nhân và các tổ chức tín dụng khác dưới hình thức tiền gửi khơng kỳ hạn, tiền gửi cĩ kỳ hạn, tiền gửi tiết kiệm và các loại tiền gửi khác.

- Phát hành chứng chỉ tiền gửi, trái phiếu và giấy tờ cĩ giá khác để huy động vốn của tổ chức, cá nhân trong nước và nước ngồi.

- Đi vay vốn của các tổ chức tín dụng trong và ngồi nước. - Vay vốn ngắn hạn của Ngân hàng Nhà Nước.

- Các hình thức huy động vốn khác theo quy định của Ngân hàng Nhà Nước.

¾ Dữ liệu thuộc lớp huy động vốn gồm những văn bản cĩ nội dung liên quan tới một trong những hoạt động huy động vốn vừa được nêu như: thơng tin về lãi suất gửi tiền tiết kiệm, các hình thức vay vốn của ngân hàng đối với các tổ chức tín dụng khác…

ƒ Tín dụng: Ngân hàng thương mại được cấp tín dụng cho tổ chức, cá nhân dưới các hình thức cho vay, chiết khấu thương phiếu và giấy tờ cĩ giá khác, bảo lãnh, cho thuê tài chính và các hình thức khác theo quy định của Ngân hàng Nhà Nước. Trong các hoạt động cấp tín dụng, cho vay là hoạt động quan trọng và chiếm tỷ trọng lớn nhất.

                  ‐ 32 - 

- Cho vay: Ngân hàng thương mại được cho các tổ chức, cá nhân vay vốn dưới các hình thức sau:

o Cho vay ngắn hạn (dưới 12 tháng) nhằm đáp ứng nhu cầu vốn cho sản xuất, kinh doanh, dịch vụ và đời sống.

o Cho vay trung hạn, dài hạn (trên 12 tháng) để thực hiện các dự án đầu tư phát triển sản xuất, kinh doanh, dịch vụ và đời sống.

- Bảo lãnh: Ngân hàng thương mại được bảo lãnh vay, bảo lãnh thanh tốn, bảo lãnh thực hiện hợp đồng, bảo lãnh đấu thầu và các hình thức bảo lãnh ngân hàng khác bằng uy tín và bằng khả năng tài chính của mình đối với một khách hàng thương mại khơng được vượt quá tỷ lệ so với vốn tự cĩ của ngân hàng thương mại.

- Chiết khấu: Ngân hàng thương mại được chiết khấu thương phiếu và các giấy tờ cĩ giá ngắn hạn khác đối với tổ chức, cá nhân và cĩ thể tái chiết khấu các thương phiếu và các giấy tờ cĩ giá ngắn hạn khác đối với tổ chức tín dụng khác.

- Cho thuê tài chính: Ngân hàng thương mại được hoạt động cho thuê tài chính nhưng phải thành lập cơng ty cho thuê tài chính riêng. Việc thành lập, tổ chức và hoạt động của cơng ty cho thuê tài chính thực hiện theo Nghị định của Chính Phủ về tổ chức và hoạt động của cơng ty cho thuê tài chính.

¾ Dữ liệu thuộc lớp tín dụng gồm những văn bản mang thơng tin về hoạt động cho vay vốn, bảo lãnh, chiết khấu, cho thuê tài chính của ngân hàng đối với cá nhân và tổ chức.

ƒ Dịch vụ thanh tốn: Để thực hiện các dịch vụ thanh tốn giữa các doanh nghiệp thơng qua ngân hàng, ngân hàng thương mại được mở tài khoản tiền gửi thanh tốn cho khách hàng trong và ngồi nước. Hoạt động dịch vụ thanh tốn của ngân hàng thương mại bao gồm các hoạt động sau:

- Cung cấp các phương tiện thanh tốn như thẻ ghi nợ (debit card), thẻ tín dụng (credit card) cĩ phạm vi thanh tốn cĩ thể thực thanh tốn trong và ngồi nước.

- Thực hiện các dịch vụ thanh tốn theo nhu cầu của khách hàng (ủy nhiệm chi, thanh tốn lương, thanh tốn hĩa đơn,…).

                  ‐ 33 - 

- Thực hiện dịch vụ thu hộ và chi hộ trong nội bộ ngân hàng hoặc liên ngân hàng trong nước.

- Thực hiện các dịch vụ thanh tốn khác theo qui định của Ngân hàng Nhà Nước.

- Thực hiện các dịch vụ thanh tốn quốc tếđối với khách hàng mở thư tín dụng (letter credit).

- Thực hiện dịch vụ chuyển tiền trong và ngồi nước.

¾ Dữ liệu thuộc lớp dịch vụ thanh tốn gồm những văn bản mang thơng tin về các hoạt động dịch vụ thanh tốn của ngân hàng như: cung cấp các phương tiện thanh tốn, các dịch vụ liên quan đến thanh tốn nhưđã nêu ở trên…

ƒ Ngoại tệ: Gồm các thơng tin về việc ngân hàng thương mại trực tiếp kinh doanh hoặc thành lập cơng ty trực thuộc để kinh doanh ngoại hối, tiền tệ và vàng trên thị trường trong nước và thị trường quốc tế.

ƒ Chứng khốn: Tất cả các ngân hàng thương mại muốn kinh doanh chứng khốn đều phải lập cơng ty trực thuộc ngân hàng. Chẳng hạn, các ngân hàng ngoại quốc doanh như Vietcombank, Incombank, Ngân hàng Đầu tư và Phát triển, Ngân hàng Nơng nghiệp và phát triển nơng thơn,… đều cĩ thành lập cơng ty chứng khốn. Cơ sở hạ tầng của thị trường chứng khốn bao gồm những hệ thống và tổ chức cung cấp phương tiện cho giao dịch, thanh tốn, ký gửi và lưu ký cổ phiếu, trái phiếu. Ngồi ra, cịn bao gồm cả những quy định pháp lý làm cơ sở cho giao dịch và quản lý thị trường cổ phiếu.

¾ Dữ liệu thuộc lớp chứng khốn gồm những văn bản mang thơng tin về giao dịch, thanh tốn, ký gửi, lưu ký cổ phiếu, trái phiếu của ngân hàng trên thị trường chứng khốn.

3.3. Bài tốn phân lp văn bn tài chính ngân hàng trong Tiếng Vit

Một phần của tài liệu Khai phá dữ liệu (Trang 31)

Tải bản đầy đủ (PDF)

(54 trang)