ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN THỊ THU THẢO PHÂN NHÓM KHÁCH HÀNG TRONG GIAO DỊCH CHỨNG KHOÁN Chuyên ngành: HỆ THỐNG THÔNG TIN QUẢN LÝ Mã số: 60.34.48 LUẬN VĂN THẠC SĨ TP.HỒ CHÍ MINH, tháng 06 năm 2014 CƠNG TRÌNH ĐƢỢC HOÀN THÀNH TẠI TRƢỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG – TPHCM Cán hƣớng dẫn khoa học: TS.LÊ THANH VÂN (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét 1:TS.VÕ THỊ NGỌC CHÂU (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét 2: TS.NGUYỄN THANH HIÊN (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn thạc sĩ đƣợc bảo vệ trƣờng Đại học Bách Khoa, ĐHQG TP.HCM ngày…… tháng… năm…… Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) TS.TRẦN VĂN HOÀI…………………………………………… TS.LÊ THÀNH SÁCH…………………………………………… TS.LÊ THANH VÂN…………………………………………… TS.VÕ THỊ NGỌC CHÂU……………………………………… TS.NGUYỄN THANH HIÊN…………………………………… Xác nhận Chủ tịch Hội đồng đánh giá luận văn Trƣởng khoa quản lý chuyên ngành sau luận văn đƣợc sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƢỞNG KHOA ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN THỊ THU THẢO Ngày, tháng, năm sinh: 07/10/1984 MSHV: 11320980 Nơi sinh: Quảng Ngãi Chuyên ngành: Hệ thống thông tin quản lý Mã số: 603448 I.TÊN ĐỀ TÀI Phân nhóm khách hàng giao dịch chứng khốn II NHIỆM VỤ VÀ NỘI DUNG Xây dựng tập liệu đầu vào cho toán phân cụm Phân tích, kiểm định đánh giá kết phân cụm Rút trích thơng tin xây dựng profile cho cụm khách hàng III NGÀY GIAO NHIỆM VỤ: 20/01/2014 VI.NGÀY HOÀN THÀNH NHIỆM VỤ: 23/06/2014 V.CÁN BỘ HƢỚNG DẪN: TS.LÊ THANH VÂN TPHCM, ngày ………tháng……….năm…… CÁN BỘ HƢỚNG DẪN (Họ tên chữ ký) TRƢỞNG KHOA (Họ tên chữ ký) LỜI CẢM ƠN Đầu tiên, xin chân thành cảm ơn sâu sắc đến Cô TS.Lê Thanh Vân, ngƣời định hƣớng đề tài nghiên cứu tận tình hƣớng dẫn tơi q trình thực luận văn Kế đến, xin cảm ơn thầy cô truyền đạt kiến thức kinh nghiệm quý báu suốt trình học Cuối xin cảm ơn gia đình, anh chị đồng nghiệp hỗ trợ tơi q trình làm luận văn TP.HCM, ngày …………tháng……… năm …… Học viên cao học TÓM TẮT Đề tài đƣợc thực nhằm phân cụm đặc tính thơng tin nhóm nhà đầu tƣ ,giúp cho nhà quản lý công ty chứng khốn có nhìn tổng quan để từ đƣa sách sản phẩm phù hợp chiến lƣợc kinh doanh hiệu với mục tiêu bao gồm: (1) xây dựng đƣợc tập liệu đầu vào cho thuật tốn phân cụm, (2) rút trích thơng tin xây dựng profile cho nhóm nhà đầu tƣ Quá trình thu thập liệu từ cơng ty chứng khốn.Sau xử lý phân tích tập liệu đầu vào gồm 24 thuộc tính thuộc tính thơng tin nhà nhà đầu tƣ, 18 thuộc tính cịn lại 18 loại hình doanh nghiệp tƣơng ứng với chứng khốn mà nhà đầu tƣ sở hữu Kết sau chạy phân cụm, đƣợc phân tích kiểm tra thống kê, đề tài xây dựng đƣợc profile cho cụm nhà đầu tƣ ABSTRACT This thesis was conducted to cluster profile of each investor group, help securities company„s managers overview of investor groups.From there, managers conduct suitable product policies and effect business strategy with main targets include: (1) Conduct input data for clustering algorithm, (2) Extract information and conduct profile for each invertor group Data was collected from securities companys.After data processing and analysis, input data group has 24 attributes include attributes are investor information, 18 remain attributes are 18 industries correlative with stocks which investors owning Result after clustering that is analysis, checked by statistics, thesis conducted profile for each investor cluster LỜI CAM ĐOAN Tôi xin cam đoan kết nghiên cứu đề tài trình học tập nghiên cứu thân.Những liệu thu thập đƣợc xử lý liệu hoàn toàn khách quan DANH MỤC BẢNG BIỂU Bảng 3.1 Thơng tin thuộc tính liệu khách hàng Bảng 3.2 Thơng tin thuộc tính liệu chứng khốn khách hàng 19 19 Bảng 3.3 Xác định loại hình doanh nghiệp cho mã chứng khoán 20 Bảng 3.4 Thơng kê loại hình doanh nghiệp Bảng 3.5 Thống kê giới tính 21 22 Bảng 3.6 Thống kê loại khách hàng Bảng 3.7 Thống kê quốc tịch 23 23 Bảng 3.8 Thống kê địa Bảng 3.9 Thống kê nhóm tuổi Bảng 3.10 Thống kê kinh nghiệm 24 25 26 Bảng 3.11 Thống kê số lƣợng chứng khoán Bảng 3.12 Định dạng thuộc tính số lƣợng chứng khốn Bảng 3.13 Định dạng thuộc tính thơng tin khách hàng 27 30 32 Bảng 4.1 Giá trị thay đổi MSE 33 Bảng 4.2 Kết phân cụm 39 Bảng 4.3 Thống kê số phần tử loại hình Bảng 4.4 Kết cụm nhiễu Bảng 4.5 Xác định loại hình doanh nghiệp 41 42 62 Bảng 4.6 Danh sách cụm cần gom Bảng 4.7 Ma trận khoảng cách Bảng 4.8 Xác định giá trị loại hình doanh nghiệp cho cụm gom 64 65 66 Bảng 4.9 Tổng hợp kết gom cụm theo loại hình doanh nghiệp Bảng 4.10 Thống kê số lƣợng cụm theo số lƣợng loại hình doanh nghiệp 68 68 Bảng 4.11 Danh sách cụm có từ loại hình doanh nghiệp trở lên Bảng 5.1 Tổng hợp kết phân cụm 69 75 DANH MỤC HÌNH ẢNH Hình 2.1 Quy trình thẩm định khách hàng Hình 2.2 Thuật tốn K-means 12 Hinh 3.1 Quy trình bƣớc thực tốn gom cụm 16 Hình 4.1 Đồ thị thay đổi giá trị MSE 33 Hình 4.2 Phân tích kết phân cụm 34 DANH MỤC CHỮ VIẾT TẮT CK: chứng khốn GT: giới tính Loại_KH: Loại khách hàng (cá nhân hay tổ chức) QT: quốc tịch DIA_CHI: đia NT: nhóm tuổi khách hàng KN: kinh nghiệm tham giao giao dịch chứng khoán BH: bảo hiểm CN: cơng nghệ DK: dầu khí BL: bán lẻ TC: tài T_ICH: tiện ích GD: gia dụng GT: giải trí C_NGHIEP: cơng nghiệp HC: hóa chất NH: ngân hàng YT: y tế O_TO: ô tô TT: truyền thông TN: tài nguyên TP: thực phẩm VT: viễn thông XD: xây dựng 10 10 17 25 28 11 11 13 26 30 12 12 15 27 31 13 13 28 36 14 14 29 37 15 15 30 101 Cụm 28 STT NAM_SINH SO_LUONG SO_NAM_KN SO_LUONG 1 2 53 410 3 291 5875 4 5358 17 5 175 6 135 7 90 8 87 9 78 10 10 26 11 11 11 12 12 13 13 14 14 STT NGANHANG SO_LUONG STT NGANHANG SO_LUONG 1 781 27 27 2 1857 28 28 3 1230 29 29 4 606 30 31 5 342 31 32 6 190 32 33 7 170 33 35 8 55 34 37 9 47 35 41 10 10 29 36 42 140 11 11 50 37 44 12 12 38 46 13 13 74 39 47 14 14 16 40 48 15 15 41 49 16 16 14 42 53 17 17 12 43 55 18 18 44 56 19 19 45 58 20 20 46 62 21 21 47 63 22 22 48 68 23 23 49 69 24 24 50 85 25 25 20 51 88 26 26 52 101 Cụm 29 STT NAM_SINH SO_LUONG SO_NAM_KN SO_LUONG 1 40 2 54 3 90 108 4 623 1807 5 394 36 6 255 10 7 120 11 8 143 12 9 188 13 10 10 48 14 11 11 11 12 12 13 14 141 STT NGANHANG SO_LUONG STT NGANHANG SO_LUONG 1 409 23 23 2 87 24 24 3 334 25 25 4 276 26 26 5 204 27 28 6 129 28 29 7 67 29 30 8 52 30 31 9 26 31 34 10 10 20 32 35 11 11 33 36 12 12 13 34 37 13 13 10 35 40 14 14 36 42 15 15 37 44 16 16 38 45 17 17 39 48 18 18 40 49 19 19 41 84 20 20 42 86 21 21 43 90 22 22 44 101 Cụm 30 STT NAM_SINH SO_LUONG SO_NAM_KN SO_LUONG 1 2 30 222 3 162 3661 4 3545 383 5 162 6 116 7 65 8 86 9 45 142 10 10 37 11 11 17 12 12 13 13 14 14 STT NGANHANG SO_LUONG STT NGANHANG SO_LUONG 1 690 18 18 2 1453 19 19 3 783 20 20 4 255 21 21 5 138 22 22 6 82 23 23 7 54 24 24 8 19 25 25 9 19 26 26 10 10 15 27 27 11 11 25 28 28 12 12 29 30 13 13 11 30 31 14 14 31 39 15 15 32 42 16 16 33 44 Cụm 31 STT NAM_SINH SO_LUONG SO_NAM_KN SO_LUONG 1 360 2 57 1638 3 615 1209 4 631 5 561 6 460 7 292 8 258 9 199 143 10 10 91 11 11 31 12 12 13 13 14 14 STT XAYDUNG SO_LUONG STT XAYDUNG SO_LUONG 1 468 20 20 2 174 21 21 3 100 22 22 4 62 23 23 5 49 24 24 6 41 25 25 7 35 26 27 8 22 27 28 9 21 28 29 10 10 15 29 30 11 11 20 30 31 12 12 31 32 13 13 13 32 33 14 14 10 33 36 15 15 34 37 16 16 35 38 17 17 36 40 18 18 37 41 19 19 38 43 Cụm 32 STT NAM_SINH SO_LUONG SO_NAM_KN SO_LUONG 1 1803 2 11 1166 3 547 4 723 5 533 6 402 7 229 144 STT 8 245 9 179 10 10 75 11 11 18 12 12 13 14 XAYDUNG SO_LUONG NGANHANG SO_LUONG TAICHINH SO_LUONG 1 452 536 397 2 150 165 164 3 111 239 85 4 78 140 55 5 45 78 39 6 37 66 25 7 20 37 18 8 21 23 20 9 19 22 11 10 10 19 10 12 10 13 11 11 11 11 12 12 12 12 11 12 13 13 14 13 13 14 14 12 14 14 15 15 15 15 16 16 16 16 17 17 18 17 18 18 19 18 19 19 20 19 20 20 21 20 21 21 22 21 22 22 23 23 23 23 24 26 24 25 25 27 25 26 26 30 26 27 27 31 27 28 28 33 145 28 34 30 37 29 37 31 40 30 39 35 41 42 31 Cụm 33 STT NAM_SINH SO_LUONG SO_NAM_KN SO_LUONG 1 2 45 655 3 644 989 4 736 1606 5 667 305 6 551 7 254 8 252 9 229 10 10 93 11 11 52 12 12 16 13 13 14 14 STT XAYDUNG SL TAICHINH SL NGANHANG SL THUCPHAM SL 1 462 332 405 625 2 156 105 116 198 3 120 63 155 89 4 83 41 111 45 5 47 34 64 37 6 39 19 38 18 7 27 14 34 11 8 22 8 26 9 16 9 10 10 10 19 10 20 10 17 10 11 11 20 11 11 11 11 12 12 13 12 12 12 146 13 13 10 13 13 13 14 14 14 14 14 15 15 12 15 15 15 16 16 16 16 16 17 17 17 17 17 18 18 18 18 20 19 19 19 21 22 20 20 20 10 22 24 21 21 21 23 26 22 22 22 25 31 23 23 23 27 33 24 24 24 28 45 25 25 25 30 47 26 26 26 35 63 27 27 34 36 101 28 28 35 37 29 29 37 42 30 30 38 50 31 31 40 32 32 50 33 33 53 34 34 61 35 35 36 36 37 37 38 38 39 39 40 40 41 41 42 42 147 Cụm 34 STT STT NAM_SINH SO_LUONG SO_NAM_KN SO_LUONG 10 54 11 32 38 12 82 60 13 137 63 14 53 46 34 52 10 35 10 11 11 12 12 13 13 14 CONGNGHIEP SL TAICHINH SL NGANHANG 1 291 36 51 36 2 62 14 12 18 3 60 10 4 27 11 11 5 12 5 6 10 6 7 14 7 7 8 8 9 9 10 10 11 10 11 10 11 11 11 13 11 12 12 12 15 12 13 13 15 16 14 14 14 17 19 15 15 15 18 22 16 16 16 19 24 21 17 17 20 25 22 148 SL XAYDUNG SL 18 18 22 27 30 19 19 25 28 32 20 20 42 29 35 21 21 47 31 22 24 37 23 25 24 26 25 28 26 31 27 36 28 37 29 65 Cụm 35 STT NAM_SINH SO_LUONG SO_NAM_KN SO_LUONG 1 2 17 771 3 111 1686 4 477 74 5 553 10 52 6 447 7 239 8 232 9 259 10 10 113 11 11 83 12 12 33 13 13 14 14 STT CN SL XD SL NH SL TP SL TC SL 1 335 270 421 291 295 2 52 63 79 72 63 3 31 39 158 48 27 4 27 31 96 27 30 149 5 34 26 74 33 22 6 21 21 47 23 24 7 16 34 12 15 8 15 29 14 12 9 11 14 9 10 10 10 12 10 13 10 10 12 11 11 11 17 11 10 11 11 12 12 12 12 12 12 12 13 13 13 13 13 13 14 14 14 14 14 14 15 15 15 15 15 15 16 18 16 16 16 16 17 20 17 17 17 17 18 21 18 18 18 18 19 22 20 19 19 20 20 24 21 20 20 21 21 26 22 21 21 22 22 27 23 23 22 24 23 28 24 24 23 28 24 30 25 25 24 30 25 34 26 26 26 33 26 35 27 31 28 38 27 36 28 33 29 39 28 38 29 34 30 40 29 40 30 37 31 41 30 41 32 32 42 31 44 34 46 32 47 35 33 48 38 34 50 40 35 54 42 36 56 44 37 63 45 38 81 39 101 150 Cụm 36 STT NAM_SINH SO_LUONG SO_NAM_KN SO_LUONG 1 3 25 3 77 45 17 93 457 71 111 60 8 41 10 31 10 11 31 11 12 13 12 13 13 99 113 STT TAICHINH SL CONGNGHE SL XAYDUNG SL CONGNGHIEP SL 136 231 1 161 335 2 68 52 31 63 3 31 31 15 35 4 23 27 12 21 5 12 34 13 6 16 21 7 7 7 8 11 8 9 9 10 10 10 10 10 11 11 11 11 11 12 12 12 12 12 13 13 13 13 13 14 14 14 14 14 15 15 15 15 15 16 16 18 18 17 17 17 20 19 18 18 18 21 20 19 151 19 19 22 21 20 20 20 24 23 22 21 21 26 25 23 22 23 27 26 24 23 24 28 28 25 24 25 30 29 26 25 26 34 40 27 26 27 35 81 27 28 36 88 28 30 38 101 29 40 40 30 43 41 31 44 44 32 45 47 33 48 48 34 49 50 35 50 54 36 55 56 37 59 63 38 68 81 39 101 101 STT THUCPHAM SL TAINGUYEN SL TIENICH SL 1 150 122 2 47 30 31 3 15 14 4 16 4 5 8 6 7 7 7 8 9 10 10 10 10 12 11 11 11 13 13 12 12 14 14 152 122 13 14 15 15 14 16 18 20 15 17 21 22 16 20 27 25 17 24 34 47 18 33 45 19 37 60 20 39 101 21 101 153 PHẦN LÝ LỊCH TRÍCH NGANG Họ tên: NGUYỄN THỊ THU THẢO Ngày, tháng, năm sinh: 07/10/1984 Nơi sinh: Quảng Ngãi Địa liên lạc: 888/20/17 Lạc Long Quân, Phƣờng 8, Quận Tân Bình, TPHCM Q TRÌNH ĐÀO TẠO (Bắt đầu từ Đại học đến nay) 2002-2006: Sinh viên khoa Toán – Tin Học Trƣờng Đại Học Khoa Học Tự Nhiên TPHCM 2010-2013: Sinh viên ngành Tài Chính Doanh Nghiệp Trƣờng Đại Học Kinh Tế TPHCM 2011-2014: Học viên cao học ngành Hệ Thống Thông Tin Quản Lý Trƣờng Đại Học Bách Khoa TP.HCM Q TRÌNH CƠNG TÁC (Bắt đầu từ làm đến nay) 2006-2008: Công ty cổ phần phần mềm FPT Software 2011-2014: Công ty cổ phần giải pháp phần mềm tài FSS 154 ... hình giao dịch chứng khốn thị trƣờng nay, quy trình tiêu chí phân loại khách hàng cơng ty chứng khoán, thuật toán phân cụm - Chƣơng 3: Áp dụng phân cụm vào tốn phân nhóm khách hàng giao dịch chứng. .. hợp với kỹ thuật phân cụm khai phá dữliệu đƣợc phát triển để đƣa đề tài ? ?Phân nhóm khách hàng giao dịch chứng khoán? ?? 1.2 Mục tiêu đề tài Đề tài ? ?Phân nhóm khách hàng giao dịch chứng khốn”với mục... khách hàng Là cho khách hàng, dùng để phân biệt khách hàng với Mã khoán chứng Mã chứng khốn có khách hàng Số lƣợng chứng Số lƣợng chứng khốn có khách hàng khốn Bảng 3.2 Thơng tin thuộc tính liệu chứng