2.1. Tổng quan về khai phá dữ liệu
2.1.4.3. Phát hiện gian lận
Một lĩnh vực khác trong khai phá dữ liệu có thể được sử dụng trong ngành công nghiệp ngân hàng là việc phát hiện gian lận. Có thể phát hiện các hành động gian lận là một mối quan tâm ngày càng tăng cho nhiều doanh nghiệp, và với sự giúp đỡ của kỹ thuật khai phá dữ liệu các hành động gian lận ngày càng được phát hiện nhiều hơn. [14]
2.1.4.4. Quản trị quan hệ khách hàng
Trong thời đại cạnh tranh khốc liệt ngày nay nói chung, đặc biệt là trong ngành ngân hàng thì khách hàng được coi là thượng đế. Khai phá dữ liệu là rất hữu ích trong tất cả ba giai đoạn trong một chu kỳ mối quan hệ khách hàng: Tìm kiếm khách hàng, tăng giá trị của khách hàng và duy trì khách hàng. [14]
Ngày nay, khách hàng có nhiều sự lựa chon bởi nhiều loại sản phẩm và dịch vụ được cung cấp bởi các ngân hàng khác nhau. Do đó, các ngân hàng phải đáp ứng nhu cầu của khách hàng bằng cách cung cấp các sản phẩm và dịch vụ mà họ ưa thích. Điều này sẽ dẫn đến sự trung của khách hàng và khả năng giữ khách hàng của các ngân hàng. Kỹ thuật khai phá dữ liệu giúp ngân hàng phân tích và nhận định được đâu là các khách hàng trung thành và đâu là các khách hàng có xu hương chuyển sang ngân hàng khác với mong muốn dịch vụ tốt hơn. Nếu khách hàng chuyển từ ngân hàng của mình sang ngân hàng khác, lý do cho việc chuyển như vậy và giao dịch cuối cùng được thực hiện trước khi chuyển có thể được biết đó sẽ giúp các ngân hàng hoạt động tốt hơn và giữ chân khách hàng của mình. [14]
2.1.5. Những thách thức trong ứng dụng khai phá dữ liệu
Đầu vào của hệ thống khai phá dữ liệu thường là các tập dữ liệu thô sơ, nhiều lúc khơng đầy đủ và có thể bị nhiễu bởi nhiều nguyên nhân khác nhau. Ngoài ra trong thực tế dữ liệu luôn biến động không ngừng và được bổ sung liên tục tạo thành một lượng dữ liệu khổng lồ chứa đựng chứa đựng những thơng tin có ích và khơng có ích. Chính vì vậy, trong bất kỳ một hệ khai phá dữ liệu nào việc đầu tiên cần phải làm là phân tích cơ sở dữ liệu (CSDL) cần khai phá.
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
Các vấn đề về cơ sở dữ liệu lớn
Đặc trưng 5Vs của dữ liệu lớn (Do Gartner xây dựng)
Khối lượng dữ liệu (Volume): Đây là đặc điểm tiêu biểu nhất của dữ liệu lớn,
khối lượng dữ liệu rất lớn. Kích cỡ của Big data đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu. Dữ liệu truyền thống có thể lưu trữ trên các thiết bị đĩa mềm, đĩa cứng. Nhưng với dữ liệu lớn chúng ta sẽ sử dụng công nghệ “đám mây” mới đáp ứng khả năng lưu trữ được dữ liệu lớn. [2]
Tốc độ (Velocity): Tốc độ có thể hiểu theo 2 khía cạnh: (a) Khối lượng dữ liệu
gia tăng rất nhanh (mỗi giây có tới 72.9 triệu các yêu cầu truy cập tìm kiếm trên web bán hàng của Amazon); (b) Xử lý dữ liệu nhanh ở mức thời gian thực (real-time), có nghĩa dữ liệu được xử lý ngay tức thời ngay sau khi chúng phát sinh (tính đến bằng mili giây). Các ứng dụng phổ biến trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng khơng, Qn sự, Y tế - Sức khỏe như hiện nay phần lớn dữ liệu lớn được xử lý real- time. Công nghệ xử lý dữ liệu lớn ngày nay đã cho phép chúng ta xử lý tức thì trước khi chúng được lưu trữ vào cơ sở dữ liệu. [2]
Đa dạng (Variety): Đối với dữ liệu truyền thống chúng ta hay nói đến dữ liệu
có cấu trúc, thì ngày nay hơn 80% dữ liệu được sinh ra là phi cấu trúc (tài liệu, blog, hình ảnh, vi deo, bài hát, dữ liệu từ thiết bị cảm biến vật lý, thiết bị chăm sóc sức khỏe...). Big data cho phép liên kết và phân tích nhiều dạng dữ liệu khác nhau. Ví dụ, với các bình luận của một nhóm người dùng nào đó trên Facebook với thơng tin video được chia sẻ từ Youtube và Twitter. [2]
Độ tin cậy/chính xác (Veracity): Một trong những tính chất phức tạp nhất của
Dữ liệu lớn là độ tin cậy/chính xác của dữ liệu. Với xu hướng phương tiện truyền thông xã hội (Social Media) và mạng xã hội (Social Network) ngày nay và sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng Mobile làm cho bức tranh xác định về độ tin cậy & chính xác của dữ liệu ngày một khó khăn hơn. Bài tốn phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất quan trọng của Big data. [2]
Giá trị (Value): Giá trị là đặc điểm quan trọng nhất của dữ liệu lớn, vì khi bắt
đầu triển khai xây dựng dữ liệu lớn thì việc đầu tiên chúng ta cần phải làm đó là xác
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
định được giá trị của thông tin mang lại như thế nào, khi đó chúng ta mới có quyết định có nên triển khai dữ liệu lớn hay khơng. Nếu chúng ta có dữ liệu lớn mà chỉ nhận được 1% lợi ích từ nó, thì khơng nên đầu tư phát triển dữ liệu lớn. Kết quả dự báo chính xác thể hiện rõ nét nhất về giá trị của dữ liệu lớn mang lại. Ví dụ, từ khối dữ liệu phát sinh trong quá trình khám, chữa bệnh sẽ giúp dự báo về sức khỏe được chính xác hơn, sẽ giảm được chi phí điều trị và các chi phí liên quan đến y tế. [2]
Do vậy những thách thức trong ứng dụng khai phá dữ liệu là:
Cơ sở dữ liệu lớn: Việc sử dụng các cơng cụ phân tích dữ liệu trực tuyến khơng
khai thác được hết những thông tin của CSDL hiện thời, chính vì vậy những người xử lý dữ liệu khơng cịn cách nào khác là lưu dữ liệu lại để phục vụ cho việc dử dụng dữ liệu sau này. Dữ liệu được lưu trữ chứa đựng tất cả các thơng tin có ích cũng như thơng tin khơng có ích. Việc tích lũy ngày càng lớn và cho đến nay các CSDL chứa tới hàng triệu bản ghi có kích thước rất lớn có thể lên đến Tetabytes. Tùy từng ứng dụng cụ thể, việc làm như thế nào để loại bỏ những dữ liệu dư thừa, những thông tin vô nghĩa lại có những thách thức khác nhau. Vì vậy, phương pháp xử lý dữ liệu hết sức đa dạng và phức tạp, khơng có một quy tắc chung nhất cho mọi ứng dụng. [6]
Số chiều dữ liệu lớn: Khơng chỉ có số lượng bản ghi lớn mà các trường trong
CSDL cũng nhiều. Vì vậy mà kích thước của bài tốn trở lên lớn hơn. Một tập dữ liệu có số chiều lớn sẽ làm tăng khơng gian tìm kiếm của mơ hình suy diễn. Hơn nữa nó sẽ làm tăng khả năng tìm thấy các mẫu giả trong các giải thuật khai phá dữ liệu. Biện pháp khắc phục vấn đề này là phải giảm chiều của dữ liệu cần khai phá và sử dụng các tri thức sẵn có để loại bỏ những biến khơng phù hợp. [6]
Các thuộc tính dữ liệu khơng phù hợp: Một đặc điểm quan trọng khác của
CSDL là tính khơng phù hợp của dữ liệu, nghĩa là dữ liệu trở thành khơng thích hợp với ý nghĩa hiện tại của khai phá. Một khía cạnh khác của tính khơng phù hợp của thuộc tính đó là giá trị của thuộc tính đó khơng phản ánh được ý nghĩa hiện tại mà chỉ thích hợp trong lịch sử của nó. [6]
Dữ liệu không đầy đủ: Việc thiếu hụt không đầy đủ ở đây bao hàm cả sự không
đầy đủ về giá trị và thuộc tính của dữ liệu. Sự có mặt hay khơng có mặt của giá trị các thuộc tính phù hợp ảnh hưởng rất lớn đến việc khai phá dữ liệu. Việc quan sát không
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
đầy đủ một CSDL có thể đưa đến các kết luận sai lầm. Việc quan sát dữ liệu phải được thực hiện trên tồn bộ các thuộc tính hữu ích. Chính việc thiếu hụt dữ liệu có thể gây ra việc tìm ra các mẫu giả, dẫn đến kết quả là tri thức khám phá được có thể sai lệch với thực tế. [6]
Dữ liệu bị nhiễu và không chắc chắn: Đối với các thuộc tính đã thích hợp, độ
nghiêm trọng của lỗi phụ thuộc vào kiểu dữ liệu của các giá trị cho phép. Các giá trị của các thuộc tính khác nhau có thể là các số thực, số nguyên, chuỗi cà có thể thuộc vào tập các giá trị định danh. Các giá trị định danh này có thể sắp xếp theo thứ tự từng phần hoặc đầy đủ, thậm chí có thể có cấu trúc nhữ nghĩa. [6]
Mối quan hệ phức tạp giữa các thuộc tính: Các thuộc tính hoặc các giá trị có
cấu trúc phân cấp, các mối quan hệ giữa các thuộc tính và các phương tiện phức tạp để diễn tả tri thức về nội dung của cơ sở dữ liệu yêu cầu các giải thuật phải có khả năng sử dụng một cách hiệu quả các thông tin này. Ban đầu, kỹ thuật khai phá dữ liệu chỉ được phát triển cho các bản ghi có giá trị thuộc tính đơn giản, tuy nhiên ngày nay người ta đang tìm cách phát triển các kỹ thuật nhằm rút ra mối quan hệ giữa các biến này. [6]
Một số vấn đề khác
Vấn đề Overfitting: Với các hệ thống khai phá dữ liệu theo mơ hình học có
giám sát, tức là học theo tri thức đã biết trước, khi đó việc khám phá dữ liệu có thể xảy ra tình trạng q phù hợp với kết quả đã biết, nghĩa là kết quả của mơ hình có thể sẽ phù hợp với tập huấn luyện nhưng lại không thực sự đưa ra các tri thức tốt ứng với tập dữ liệu kiểm tra. Như vậy, nếu để xảy ra tình trạng overfitting thì mơ hình hoạt động sẽ kém hiệu quả. Để khắc phục tình trạng này thường phải thực hiện thêm việc kiểm tra chéo (cross validation) để đánh giá mơ hình hoặc sử dụng các biện pháp thống kê cổ điển. [6]
Khả năng biểu đạt của mẫu: Trong nhiều ứng dụng, điều quan trọng là phải
diễn giải kết quả bài toán càng rõ ràng, càng gần gũi, càng dễ hiểu đối với người sử dụng càng tốt. Vì vậy, các giải pháp thường bao gồm việc diễn tả dưới dạng đồ họa, xây dựng cấu trúc luật với các đồ thị có hướng, biểu diễn bằng ngơn ngữ tự nhiên và các kỹ thuật khác nhằm biểu diễn tri thức và dữ liệu. [6]
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
Khả năng tương tác với người sử dụng: Rất nhiều công cụ và phương pháp
KPDL không thực sự tương tác với người dùng và không dễ dàng kết hợp với các tri thức đã biết trước đó. Việc sử dụng tri thức miền là rất quan trọng trong KPDL. Đã có nhiều biện pháp nhằm khắc phục vấn đề này như sử dụng CSDL suy diễn để phát hiện tri thức, những tri thức này sau đó được sử dụng để hướng dẫn cho việc tìm kiếm, KPDL hoặc sử dụng phân bố xác suất dữ liệu trước đó như một dạng mã hóa tri thức có sẵn. [6]
Khả năng tích hợp với các hệ thống khác: Một ứng dụng đạt được hiệu quả cao
và linh hoạt cần có khả năng tích hợp với các hệ thống khác, nhưng trên thực tế việc này khá khó khăn trong các hệ khai phá dữ liệu. Điều này xuất phát từ chính trong các kỹ thuật khai phá dữ liệu là phải xây dựng một mơ hình phù hợp để tìm ra các mẫu đặc trưng. [6]
2.2. Cây quyết định
2.2.1. Khái niệm
Trong lý thuyết quyết định (chẳng hạn quản lí rủi ro), một cây quyết định (DT) là một đồ thị của các quyết định và các hậu quả có thể của nó (bao gồm rủi ro và hao phí tài nguyên). Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu mong muốn. Các cây quyết định được dùng để hỗ trợ quá trình ra quyết định. Cây quyết định là một dạng đặc biệt của cấu trúc cây.
Trong lĩnh vực học máy, cây quyết định là một kiểu mơ hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/ hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/ hiện tượng. Mỗi nút trong (internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị dự đoán của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định.
Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá
dữ liệu. Khi đó, cây quyết định mơ tả một cấu trúc cây, trong đó, các lá đại diện cho
các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
đó. Một cây quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theo một kiểm tra giá trị thuộc tính. Q trình này được lặp lại một cách đệ quy cho mỗi tập con dẫn xuất. Q trình đệ quy hồn thành khi khơng thể tiếp tục thực hiện việc chia tách được nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất. Một bộ phân loại rừng ngẫu nhiên (random forest) sử dụng một số cây quyết định để có thể cải thiện tỉ lệ phân loại. [13]
Cây quyết định cũng là một phương tiện có tính mơ tả dành cho việc tính tốn các xác suất có điều kiện. Cây quyết định có thể được mơ tả như là sự kết hợp của các kỹ thuật toán học và tính tốn nhằm hỗ trợ việc mơ tả, phân loại và tổng quát hóa một tập dữ liệu cho trước. Cây quyết định là biểu đồ phát triển có cấu trúc dạng cây, như mơ tả hình vẽ dưới đây:
bad good bad good
Hình 2.2: Cây quyết định phân lớp mức lươngTrong cây quyết định: Trong cây quyết định:
• Gốc là node trên cùng của cây
• Node trong: biểu diễn một thuộc tính đơn
• Nhánh: là một đường đi trên cây bắt đầu từ nút gốc đến nút lá
• Node lá: biểu diễn tập giá trị cuối cùng của một nhánh
• Độ cao, mức: trong một cây, độ cao của một đỉnh a là độ dài của đường đi
dài nhất từ a đến một lá. Độ cao của gốc được gọi là độ cao của cây, mức của đỉnh a là
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
độ dài của đường đi từ gốc đến a.
2.2.2. Đánh giá cây quyết định trong lĩnh vực khai phá dữ liệu2.2.2.1. Ưu điểm 2.2.2.1. Ưu điểm
So với các phương pháp khai phá dữ liệu khác, cây quyết định là phương pháp có một số ưu điểm sau:
Khả năng sinh ra các quy tắc hiểu được: Cây quyết định có khả năng sinh ra
các quy tắc có thể chuyển đổi được sang dạng tiếng Anh, hoặc các câu lệnh SQL. Đây là ưu điểm nổi bật của kỹ thuật này. Thậm chí với những tập dữ liệu lớn khiến cho hình dáng cây quyết định lớn và phức tạp, việc đi theo bất cứ đường nào trên cây là dễ dàng theo nghĩa phổ biến và rõ ràng. Do vậy sự giải thích cho bất cứ một sự phân lớp hay dự đoán nào đều tương đối minh bạch. [1]
Khả năng thực thi trong những lĩnh vực hướng quy tắc: Điều này có nghe có vẻ
hiển nhiên, nhưng quy tắc quy nạp nói chung và cây quyết định nói riêng là lựa chọn hoàn hảo cho những lĩnh vực thực sự là các quy tắc. Rất nhiều lĩnh vực từ di truyền tới các q trình cơng nghiệp thực sự chứa các quy tắc ẩn, không rõ ràng (underlying rules) do khá phức tạp và tối nghĩa bởi những dữ liệu lỗi (noisy). Cây quyết định là một sự lựa chọn tự nhiên khi chúng ta nghi ngờ sự tồn tại của các quy tắc ẩn, không rõ