PHẦN MỞ ĐẦU Trong những năm gần đây,sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin ở hầu hết các lĩnh vực trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã được thu thập và lưu trữ ngày càng lớn. Các hệ quản trị cơ sở dữ liệu truyền thống cũng chỉ khai thác được một lượng thông tin nhỏ không còn đáp ứng đầy đủ những yêu cầu, những thách thức mới. Do vậy một khuynh hướng mới được ra đời đó là các kỹ thuật phát hiện tri thức trong cơ sở dữ liệu. Hàng triệu CSDL đã được sử dụng trong các hoạt động sản xuất, kinh doanh, quản lý..., trong đó có nhiều CSDL cực lớn cỡ Gigabyte, thậm chí là Terabyte mà ta thường gọi là “BIG DATA- DỮ LIỆU LỚN” dần được quan tâm, khai thác và mang về giá trị lớn cho các doanh nghiệp. Sự bùng nổ về khối lượng dữ liệu này đã dẫn tới yêu cầu cấp thiết là cần có những kỹ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu đó thành các tri thức có ích. Do vậy, các kỹ thuật khai phá dữ liệu đã trở thành một lĩnh vực thời sự của CNTT thế giới hiện nay nói chung và Việt Nam nói riêng. Khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau: marketing, khoa học, y tế, an ninh, internet, tài chính, ngân hàng và bảo hiểm… Rất nhiều tổ chức và công ty lớn trên thế giới và Việt Nam đã áp dụng kỹ thuật khai phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình và thu được những lợi ích to lớn. Xuất phát từ tình hình thực tế này; dựa vào cơ sở học thuyết, các phương pháp luận và các kỹ thuật phân tích đã được học, tác giả xin chọn đề tài nghiên cứu “Nghiên cứu và ứng dụng kỹ thuật phân nhóm nhằm nâng cao hiệu quả khai thác khách hàng đang sử dụng thẻ tín dụng tại NHTMCP Việt Nam Thịnh Vượng.” Tính cấp thiết của đề tài: Phân nhóm dữ liệu là một kỹ thuật điển hình trong các hệ thống truy vấn thông tin, nhằm phân nhóm một tập dữ liệu lớn thành một số nhóm nhỏ thường được dùng cho việc phân tích thống kê và phân lớp trong nhiều ứng dụng. Đặc biệt, đối với các ứng dụng truy vấn thông tin, việc phân nhóm dữ liệu được dùng để làm tăng tốc độ xử lý truy vấn bằng cách chỉ xem xét một số nhỏ các điểm đại diện cho nhóm thay vì toàn bộ dữ liệu trong kho dữ liệu. Nhiều hệ thống truy vấn thông tin đều gặp phải những khó khăn vì các thuật toán phân nhóm đang tồn tại không thể thích hợp để duy trì các nhóm dữ liệu trong một không gian dữ liệu quá biến động như thế. Do đó vấn đề cập nhật các nhóm dữ liệu mà không phải thường xuyên thực hiện phân nhóm lại toàn bộ kho dữ liệu đã được đặt ra để giải quyết những khó khăn đó. Các kỹ thuật phân nhóm nhằm khai phá dữ liệu, xử lý dữ liệu và nhận biết các mẫu và các xu hướng trong thông tin đó để người dùng có thể quyết định hoặc đánh giá các sản phẩm mà doanh nghiệp, tổ chức mình đang phát triển. Các nghiên cứu và ứng dụng kỹ thuật phân nhóm đã được dùng nhiều năm rồi, nhưng với sự ra đời của big data (dữ liệu lớn) lại càng phổ biến hơn. Big data gây ra một sự bùng nổ về sử dụng nhiều kỹ thuật khai phá dữ liệu trong đó có kỹ thuật phân nhóm, một phần vì kích thước dữ liệu lớn hơn rất nhiều và vì thông tin có xu hướng đa dạng và mở rộng hơn về chính bản chất và nội dung của nó. Bằng cách xem xét một hay nhiều thuộc tính hoặc các lớp của từng nhóm người dùng có thể dễ dàng khai thác xử lý dữ liệu giúp tìm ra các vấn đề nội tại cũng như phương thức có thể giải quyết. Vì vậy, việc nghiên cứu và ứng dụng kỹ thuật phân nhóm là vô cùng cần thiết trong công cuộc của cách mạng công nghiệp 4.0 hiện nay. Mục tiêu nghiên cứu của đề tài Nghiên cứu kỹ thuật phân nhóm trong khai phá dữ liệu. Áp dụng kỹ thuật phân nhóm khách hàng đang có thẻ tín dụng để có thể xây dựng mô hình dự báo dựa trên các dữ liệu của khách hàng. Mục tiêu cụ thể của đề tài là nghiên cứu, áp dụng kỹ thuật phân nhóm dữ liệu khách hàng đểdự báo các khách hàng đang có Thẻ tín dụng của NHTMCP Việt Nam Thịnh Vượng sắp tới sẽ có khả năng chi tiêu ở những lĩnh vực nào theo từng cụm mục tiêu, từ đó có phương pháp chào bán các sản phẩm đúng cách nhất và đúng thời điểm nhất. Đối tượng nghiên cứu của đề tài Các phương pháp phân nhóm dữ liệu trong khai phá dữ liệu. Các phương pháp truy vấn thông tin. Khách hàng đang có thẻ tín dụng của NHTMCP Việt Nam Thịnh Vượng và các hoạt động chi tiêu của các khách hàng này. Phạm vi nghiên cứu của đề tài Chỉ nghiên cứu trong phân khúc khách hàng cá nhân của VPBank; các phân khúc khác của khách hàng Doanh nghiệp sẽ không đề cập trong đề tài này, dữ liệu nghiên cứu bao gồm (dữ liệu sẽ được mã hóa do tính chất bảo mật của ngân hàng): Dữ liệu lấy từ Tháng 03/2020 – Tháng 08/2020. Dữ liệu nhân khẩu học của khách hàng. Dữ liệu về sản phẩm thẻ khách hàng dùng. Dữ liệu giao dịch thẻ tín dụng của khách hàng. Phương pháp nghiên cứu của đề tài Hệ thống, phân tích tổng hợp lý thuyết về khai phá dữ liệu, phân nhóm dữ liệu. Thực nghiệm phương pháp phân nhóm dữ liệu trên bộ dữ liệu thực tế. So sánh, đánh giá kết quả thu được bằng các công cụ như bảng biểu, đồ thị để giải quyết bài toán đã đưa ra. Ý nghĩa thực tiễn của đề tài Theo chiến lược của VPBank 2018-2022, khát vọng của VPBank là trở thành một trong 3 ngân hàng có giá trị hàng đầu tại Việt Nam vào năm 2022 và trở thành ngân hàng thân thiện với người tiêu dùng nhất thông qua công nghệ. Để đạt được khát vọng “Tầm nhìn của VPBank 2022”, ngân hàng cần theo đuổi 6 chủ đề chiến lược và 27 sáng kiến chiến lược quan trọng. Một trong những chủ đề chiến lược là: “Phát triển dòng sản phẩm thẻ tín dụng và đứng đầu trên thị trường về sản phẩm này”. Bên cạnh việc phát triển những dòng thẻ có nhiều tính năng mới, thân thiện với khách hàng thì việc khai thác và phục vụ tối đa nhu cầu của các khách hàng hiện hữu đang có cũng cần được chú trọng. Kết quả nghiên cứu nhằm nâng cao hiệu quả khai thác khách hàng đang sử dụng thẻ tín dụng tại NHTMCP Việt Nam Thịnh Vượng, giúp Ban lãnh đạo có những chiến lược phù hợp với sản phẩm này và đạt được mục tiêu đề ra. Tập trung vào các điểm: Khách hàng thường chi tiêu ở đâu, dự báo khả năng sắp tới sẽ chi tiêu gì. Dự báo khách hàng sắp đóng thẻ chưa để có các chính sách “churn customer”. Tìm ra những KH giá trị cao và có tiềm năng để tập trung khai thác: right customer. Tìm sản phẩm phù hợp để offer cho KH: right product. Đưa ra chào bán phù hợp nhất, hấp dẫn nhất: right offer. Chào bán đúng thời điểm nhất: right time. Chào bán đúng cách nhất: right way. Chống thất thoát khách hàng: anti-attrition. Nội dung nghiên cứu Ngoài phần Mở đầu, Kết luận, Danh mục tài liệu tham khảo, luận văn được chia thành 3 chương: Chương 1.Tổng quan về phân nhóm dữ liệu, các kỹ thuật phân nhóm dữ liệu. Chương 2.Phát biểu bài toán, xây dựng mô hình cần giải quyết, phân tích đặc điểm của bộ dữ liệu và lựa chọn kỹ thuật phân nhóm phù hợp với bài toán. Chương 3. Ứng dụng, triển khai kỹ thuật K-means trong việc khai thác khách hàng đang sử dụng thẻ tín dụng tại NHTMCP Việt Nam Thịnh Vượng.
TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN LÊ NGỌC HUYỀN NGHIÊN CỨU VÀ ỨNG DỤNG KỸ THUẬT PHÂN NHÓM NHẰM NÂNG CAO HIỆU QUẢ KHAI THÁC KHÁCH HÀNG ĐANG SỬ DỤNG THẺ TÍN DỤNG TẠI NHTMCP VIỆT NAM THỊNH VƯỢNG LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN QUẢN LÝ HÀ NỘI - 2020 TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN LÊ NGỌC HUYỀN NGHIÊN CỨU VÀ ỨNG DỤNG KỸ THUẬT PHÂN NHÓM NHẰM NÂNG CAO HIỆU QUẢ KHAI THÁC KHÁCH HÀNG ĐANG SỬ DỤNG THẺ TÍN DỤNG TẠI NHTMCP VIỆT NAM THỊNH VƯỢNG Chuyên ngành: Hệ thống thông tin quản lý LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN QUẢN LÝ NGƯỜI HƯỚNG DẪN KHOA HỌC:TS NGUYỄN TRUNG TUẤN HÀ NỘI - 2020 LỜI CAM ĐOAN Tôi đọc hiểu hành vi vi phạm trung thực học thuật Tôi cam kết danh dự cá nhân nghiên cứu tự thực không vi phạm yêu cầu trung thực học thuật Hà Nội, ngày… tháng 11 năm 2020 Tác giả luận văn Lê Ngọc Huyền LỜI CẢM ƠN Trong suốt thời gian học tập, nghiên cứu hồn thành luận văn, tơi nhận hướng dẫn, bảo tận tình thầy giáo, giúp đỡ, động viên bạn bè, đồng nghiệp gia đình Nhân dịp hồn thành luận văn, cho phép tơi bày tỏ lịng kính trọng biết ơn sâu sắc thầy giáo TS Nguyễn Trung Tuấn tận tình hướng dẫn, dành nhiều cơng sức, thời gian tạo điều kiện cho tơi suốt q trình học tập thực đề tài Tôi xin bày tỏ lòng biết ơn chân thành tới Ban Giám hiệu nhà trường, Viện Đào tạo Sau đại học Trường Đại học Kinh tế quốc dân tận tình giúp đỡ tơi q trình học tập, thực đề tài hồn thành luận văn Tơi xin chân thành cảm ơn tập thể lãnh đạo, cán viên chức Trung tâm Phân tích kinh doanh -NHTMCP Việt Nam Thịnh Vượng giúp đỡ tạo điều kiện cho suốt trình thực đề tài Xin chân thành cảm ơn gia đình, người thân, bạn bè, đồng nghiệp tạo điều kiện thuận lợi giúp đỡ tơi mặt, động viên khuyến khích tơi hoàn thành luận văn./ Hà Nội, ngày… tháng 11 năm 2020 Học viên Lê Ngọc Huyền MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC TỪ VIẾT TẮT DANH MỤC BẢNG BIỂU DANH MỤC HÌNH TĨM TẮT LUẬN VĂN THẠC SĨ i PHẦN MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ PHÂN NHÓM DỮ LIỆU, CÁC KỸ THUẬT PHÂN NHÓM DỮ LIỆU 1.1.Cơ sở lý thuyết đề tài 1.1.1.Tổng quan khai phá liệu phát tri thức 1.1.2.Các phương pháp khai phá liệu 10 1.1.3.Các vấn đề cần nghiên cứu khai phá liệu phát tri thức 12 1.2.Các kỹ thuật khai phá liệu phát tri thức 14 1.2.1 Cây định (Decision tree) 14 1.2.2 K-láng giềng gần (K-Nearest Neighbor) .19 1.2.3 Thuật toán K-means 20 1.2.4 Luật kết hợp (Associati on Rule) 25 1.3.Kết luận chương 31 CHƯƠNG PHÁT BIỂU BÀI TOÁN, XÂY DỰNG MƠ HÌNH CẦN GIẢI QUYẾT, PHÂN TÍCH ĐẶC ĐIỂM CỦA BỘ DỮ LIỆU VÀ LỰA CHỌN KỸ THUẬT PHÂN NHÓM PHÙ HỢP VỚI BÀI TOÁN 32 2.1 Tổng quan NHTMCP Việt Nam Thịnh Vượng 32 2.1.1 Giới thiệu chung 32 2.1.2 Cơ cấu tổ chức 34 2.1.3 Tổng quan kết kinh doanh 35 2.2 Tình hình khai thác thẻ tín dụng NHTMCP Việt Nam Thịnh Vượng 38 2.2.1 Giới thiệu dịng sản phẩm thẻ tín dụng NHTMCP Việt Nam Thịnh Vượng 38 2.2.2 Thị trường thẻ tín dụng NHTMCP Việt Nam Thịnh Vượng toán đặt .41 2.3 Mô tả liệu, phân tích lựa chọn kỹ thuật phân nhóm phù hợp với tốn 48 2.3.1 Mơ tả liệu 48 2.3.2 Phân tích lựa chọn kỹ thuật phân nhóm phù hợp với tốn .49 2.3.3 Mơ tả toán, đầu vào đầu toán 50 2.4 Kết luận chương 51 CHƯƠNG 3: ỨNG DỤNG, TRIỂN KHAI KỸ THUẬT K-MEANS TRONG VIỆC KHAI THÁC KHÁCH HÀNG ĐANG SỬ DỤNG THẺ TÍN DỤNG TẠI NHTMCP VIỆT NAM THỊNH VƯỢNG 52 3.1 Quy trình thực toán nguồn liệu 52 3.2 Chuẩn bị liệu 53 3.2.1 Thu thập liệu 53 3.2.2 Làm chuẩn hóa liệu .56 3.3 Phân tích mơ hình 57 3.3.1 Phân nhóm khách hàng 57 3.3.2.Chân dung khách hàng 63 3.3.3.Dự báo 67 3.4 Các đề xuất kiến nghị 70 3.5 Đánh giá hiệu 75 3.6 Kết luận chương 75 KẾT LUẬN 76 TÀI LIỆU THAM KHẢO PHỤ LỤC DANH MỤC TỪ VIẾT TẮT CNTT CSDL KDD KH KHCN KNN KPDL LNTT NH NHNN NHTMCP SME TB TMCP TTD VPBANK Công nghệ thông tin Cơ sở liệu Knowledge Discovery and Data Mining Khách hàng Khách hàng cá nhân K láng giềng gần Khai phá liệu Lợi nhuận trước thuế Ngân hàng Ngân hàng Nhà nước Ngân hàng Thương mại cổ phần Khách hàng Doanh nghiệp vừa nhỏ Trung bình Thương mại cổ phần Thẻ tín dụng Ngân hàng Thương mại Cổ phần Việt Nam Thịnh Vượng DANH MỤC BẢNG BIỂU Bảng 1 Training data vềsự lựa chọn loại phương tiện vận chuyển Bảng Testing data vềsự lựa chọn loại phương tiện vận chuyển 17 Bảng Kết phân lớp định 18 Bảng Thống kê số lượng chi nhánh VPBank theo Tỉnh – Thành Phố 33 Bảng 2 Các dịng thẻ tín dụng phổ biến Ngân hàng VPBank .39 Bảng Định nghĩa trường liệu bảng Customer .54 Bảng Định nghĩa trường liệu bảng Creditcard 54 Bảng 3 Định nghĩa trường liệu bảng CC Spending 55 Bảng Mẫu liệu phân tích 58 Bảng Nhóm biến liệu theo CIF khách hàng 62 Bảng Nhóm khách hàng theo CIF 62 Bảng Thống kê số theo nhóm .63 Bảng Tổng điểm trung bình yếu tố tác động tớichi tiêu thẻ tương lai .69 Bảng Kết dự báo chi tiêu thẻ tín dụng 70 DANH MỤC HÌNH Hình 1Mối quan hệ phát tri thức với lĩnh vực liên quan Hình Quy trình phát tri thức CSDL Hình Quy trình khai phá liệu .9 Hình Phân cụm tập liệu cho vay thành cụm dựa vào nợ thu nhập 12 Hình 5Ví dụ định lựa chọn loại phương tiện vận chuyển .16 Hình 6Các bước thực thực thuật toán K-means 21 Hình Thu nhập theo loại hình kinh doanh 36 Hình 2Dư nợ theo phân khúc 37 Hình Tổng thu nhập hoạt động theo dịch vụ 37 Hình Danh mục thẻ tín dụng KHCN .39 Hình Các tiêu tăng trưởng năm 2019 42 Hình Tỷ lệ hoạt động số lượng thẻ phát tín dụng phát hành .43 Hình Tăng trưởng loại thu nhập phí 44 Hình 8Tổng quan tình hình thẻ tín dụng qua năm .47 Hình Quy trình thực toán 52 Hình Quy trình ETL liệu 53 Hình 3 Số cụm tối ưu 61 Hình Giao dịch nhóm khách hàng 64 Hình Phân bổ độ tuổi giới tính nhóm high value 65 Hình Phân bổ nghề nghiệp nhóm high value 65 Hình Phân bổ tình trạng nhân nhóm high value .66 Hình Phân bổ thu nhập nhóm high value 66 Hình Phân bổ trình độ học vấn nhóm high value .67 TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN LÊ NGỌC HUYỀN NGHIÊN CỨU VÀ ỨNG DỤNG KỸ THUẬT PHÂN NHÓM NHẰM NÂNG CAO HIỆU QUẢ KHAI THÁC KHÁCH HÀNG ĐANG SỬ DỤNG THẺ TÍN DỤNG TẠI NHTMCP VIỆT NAM THỊNH VƯỢNG Chuyên ngành: Hệ thống thông tin quản lý TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2020 TÀI LIỆU THAM KHẢO Ngân hàng TMCP Việt Nam Thịnh Vượng, Báo cáo tài hợp 2019, Hà Nội Ngân hàng TMCP Việt Nam Thịnh Vượng, Báo cáo thường niên 2019, Hà Nội Ngân hàng TMCP Việt Nam Thịnh Vượng, Báo cáo sách tín dụng 2019, Hà Nội Nguyễn Trung Tuấn (2009), Nghiên cứu áp dụng số kỹ thuật tiên tiến để xử lý liệu kinh tế xã hội, Nghiên cứu khoa học, Trường đại học KTQD Robert I Kabacoff (2011), R in action data analysis and graphics with R Trần Hùng Cường, Ngô Đức Vĩnh (2011), ‘Tổng quan phát tri thức khai phá liệu’, Tạp chí Khoa học Cơng nghệ, số 5.2011, tr 50-55 Website https://www.vpbank.com.vn/ca-nhan/dich-vu-the http://cafef.vn https://www.analyticsvidhya.com/blog/2020/05/decision-tree-vs-randomforest-algorithm/ 10 https://machinelearningcoban.com 11 https://cards.vpbank.com.vn 12 http://bis.net.vn/forums/t/374.aspx 13 https://vi.wikipedia.org/wiki/Cây_quyết_định PHỤ LỤC Phụ lục 1: Phân nhóm khách hàng rm(list = ls()) # xóa hết biến từ project trước rs.restartR() # restart lại R # Bước 1: Thu thập DL từ Kho data tập trung ngân hàng: ## Bước 1.1 Tải package cần dùng thiết lập kết nối từ SQL tới R: library(RODBC) library(dplyr) library(stringr) library(magrittr) library(lubridate) library(reshape2) library(recommenderlab) library(factoextra) library(purrr) library(odbc) library(tidyverse) library(knitr) library(Matrix) library(DBI) libPaths() ch % as.Date ) ## Bước 1.4: Tạo bảng liệu rfm_data group by theo khách hàng (CIF) rfm_data % group_by(CIF) %>% summarise(first_date = min(TRANS_DATE), last_date = last(TRANS_DATE), total_amt = sum(TRANS_AMOUNT), total_no = n()) %>% as.data.frame() ### Sau thêm biến #recency: khoảng cách từ ngày giao dịch cuối đến ngày 31/8 #tenure: khoảng cách từ ngày giao dịch đến ngày giao dịch cuối rfm_data % mutate(recency = difftime(as.Date(data_date), last_date, units = "weeks") %>% as.numeric(), tenure = difftime(last_date, first_date, units = "weeks")%>% as.numeric()) ### Chuẩn hóa liệu chia nhóm khách hàng # Làm trịn liệu cho biến: rfm_data$tenure % floor()) + rfm_data$recency % floor()) + #Chuẩn hóa liệu dùng kmeans để chia nhóm khách hàng scale_data % arrange(desc(total_spending_per_customer)) %>% View rfm_data % mutate(group_name = case_when( group == ~ "high_value", group == ~ "medium_value", group == ~ "almost_gone", group == ~ "losing" ) %>% as.factor) Phụ lục 2: Chân dung khách hàng rm(list = ls()) # xóa hết biến từ project trước # Bước 1: Thu thập DL từ Kho data tập trung ngân hàng: ## Bước 1.1 Tải package cần dùng thiết lập kết nối từ SQL tới R (tương tự phụ lục 1) library(readxl) library(scales) library(ggplot2) library(paletteer) library(wesanderson) library(RColorBrewer) ch % group_by(sector_name) %>% ggplot(aes(x = sector_name, y = no_cus)) + geom_bar(stat = "identity", color = "#008A45", fill = "#008A45") + coord_flip() + theme(plot.title = element_text(size = 20, face = "bold", family = "Times New Roman")) + theme_bw()+ labs (y = "Số lượng khách hàng", x = "Nghề nghiệp") ## chi tiết tới lĩnh vực: industry_cus % group_by(industry_name) %>% ggplot(aes(x = industry_name, y = no_cus)) + geom_bar(stat = "identity", color = "#E31944", fill = "#E31944") + coord_flip() + theme(plot.title = element_text(size = 20, face = "bold", family = "Times New Roman")) + theme_bw()+ facet_wrap (~group_name, scale = "fix") + labs (y = "Số lượng khách hàng", x = "Lĩnh vực") # tình trạng hôn nhân: marital_cus = 0.05), x=3.5, aes(y=labelPosition, label=label), size=3) + coord_polar(theta="y") + # Try to remove that to understand how the chart is built initially xlim(c(2, 4))+ scale_fill_brewer(palette=8) + scale_color_brewer(palette=8) + theme_void() # thu nhap: income_cus