Mục tiêu đề tài: Thực hiện đề tài “ Ứng dụng khai phá dữ liệu Web xây dựng Website tư vấn tối ưu hoá lợi ích tiền gửi tiết kiệm cho người dân và doanh nghiệp Việt Nam”, nhóm nghiên cứu
CƠ SỞ LÍ THUYẾT
KHAI PHÁ DỮ LIỆU
1.1.1.1.Khái niệm về khai phá dữ liệu
Khai phá dữ liệu (KPDL) là một bước quan trọng trong quy trình khám phá tri thức, giúp trích xuất thông tin hữu ích và tiềm ẩn từ các khối dữ liệu lớn Quá trình này bao gồm phân tích dữ liệu bán tự động và giải thích thông tin trên các tập dữ liệu lớn.
1.1.1.2.Tiến trình thực hiện của khai phá dữ liệu
Quá trình khai phá dữ liệu bao gồm các bước sau:
Bước 1: Xác định bài toán, mục đích, phạm vi bài toán
Bước 2: Thu thập dữ liệu
Bước 3: Làm sạch, tiền xử lý dữ liệu
Bước 4: Giảm kích thước dữ liệu và chuyển đổi dữ liệu về kiểu thích hợp để tối ưu hóa hiệu suất Bước 5: Lựa chọn phương pháp phù hợp như phân loại, gom cụm, dự báo hoặc luật kết hợp để phân tích dữ liệu Bước 6: Thực hiện các thuật toán khai phá dữ liệu tương ứng để thu được kết quả chính xác.
Bước 7: Tiến hành khai phá dữ liệu
Bước 8: Đánh giá các mẫu thu được và tính chính xác của tri thức
Bước 9: Sử dụng thông tin trong hỗ trợ ra quyết định
Khám phá tri thức (KPTT) là quá trình tự động trích xuất tri thức tiềm ẩn từ hệ sinh thái dữ liệu lớn KPTT từ cơ sở dữ liệu bao gồm các bước như xác định vấn đề, tập hợp và chọn lọc dữ liệu, khai phá dữ liệu, đánh giá kết quả, giải thích dữ liệu và áp dụng tri thức vào thực tiễn Để thu được thông tin chất lượng, cần phải lọc ra các mẫu có trong tập dữ liệu Chất lượng của dữ liệu được trích chọn được đánh giá dựa trên các tiêu chí cụ thể.
Độ chính xác của mẫu là yếu tố quyết định đến hiệu quả công việc; những mẫu có độ chính xác cao mang lại kết quả tốt hơn, trong khi những mẫu kém chính xác cần được loại bỏ để tối ưu hóa hiệu suất.
KPDL giúp phát hiện những xu hướng mới và quy trình tiềm năng hữu ích ẩn chứa trong dữ liệu chưa được khai thác, mang lại sự hấp dẫn và giá trị cho người dùng.
- Tính hiệu quả: Khi triển khai thuật các thuật toán cần phải xử lý trong thời gian cho phép chấp nhận được
1.1.1.3.Một số phương pháp khai phá dữ liệu
Phương pháp dự báo dựa vào các mẫu lịch sử giao dịch của đơn vị để tiên đoán các trường hợp có khả năng xảy ra tiếp theo Đối với các giá trị liên tục, hồi quy sẽ được áp dụng Phân tích hồi quy là một kỹ thuật thống kê quan trọng trong việc phân tích dữ liệu và xây dựng các mô hình thực nghiệm, cho phép khám phá và sử dụng mô hình hồi quy nhằm mục đích dự báo hoặc học hỏi cơ chế để tạo ra mẫu.
- Phương pháp phân loại: là dạng phân tích dữ liệu nhằm rút trích các mô hình mô tả các lớp dữ liệu hoặc dự đoán xu hướng dữ liệu
Quá trình gồm hai bước:
Bước học (pha huấn luyện): xây dựng bộ phân loại (classifier) bằng việc phân tích/học tập huấn luyện
Bước phân loại là quá trình phân loại dữ liệu hoặc đối tượng mới khi độ chính xác của bộ phân loại đạt yêu cầu chấp nhận được Các giải thuật phổ biến trong phân loại dữ liệu bao gồm cây quyết định, mạng Bayesian, mạng neural, suy diễn dựa trên tình huống, phân loại dữ liệu dựa trên tiến hóa gen, lý thuyết tập thô và lý thuyết tập mờ.
Giới thiệu một số độ đo của cây quyết định:
Information Gain (được dùng trong ID3)
Trong đó: Info(D): Lượng thông tin cần để phân loại một phần tử D Pi : xác suất để một phần tử bất kỳ trong D thuộc về lớp Ci, với i = 1 m
Gain Ratio (được dùng trong C4.5)
Decision tree algorithms, such as ID3, C4.5, and CART (Classification and Regression Trees), are essential for constructing decision trees from training data These algorithms provide a general framework for building decision trees effectively, enabling accurate classification and regression analysis.
Hình 1.2: Ví dụ thuật toán K-mean với k=3
Phương pháp luật kết hợp là một kỹ thuật quan trọng trong phân tích dữ liệu, sử dụng tập hợp giao dịch lịch sử để xác định các luật có khả năng xuất hiện trong các giao dịch tiếp theo Mục tiêu của phương pháp này là phát hiện tất cả các luật dựa trên hai tiêu chí chính: độ hỗ trợ (minsup) và độ tin cậy (minconf) Giải thuật Apriori là một trong những thuật toán nổi bật trong lĩnh vực luật kết hợp, giúp tối ưu hóa quá trình tìm kiếm các mẫu giao dịch tiềm năng.
Hình 1.3: Ví dụ về giải thuật Apriori
1.1.1.4.Các nguồn dữ liệu có thế khai phá
Hình 1.4: Các kiểu dữ liệu có thể khai phá
KPDL được thực hiện trên các tập dữ liệu lớn từ nhiều nguồn như cơ sở dữ liệu, kho dữ liệu, web và các kho thông tin khác Những cơ sở dữ liệu này có cấu trúc đa dạng và rời rạc, đến từ nhiều nguồn khác nhau Trước khi phục vụ quá trình khai thác thông tin, tất cả dữ liệu sẽ được làm sạch và tích hợp vào các cơ sở dữ liệu chính để người dùng dễ dàng truy cập và khai thác.
KPDL được ứng dụng đa dạng trong mọi lĩnh vực:
Khai phá dữ liệu (KPDL) đóng vai trò quan trọng trong nhiều lĩnh vực như kinh doanh, ngân hàng, tài chính, tiếp thị, bảo hiểm và thương mại, giúp tạo ra các báo cáo thông tin chi tiết và phân tích rủi ro để xây dựng chiến lược kinh doanh hiệu quả Ngân hàng, với việc triển khai Data Warehouse, có lợi thế lớn trong việc tổ chức và lưu trữ dữ liệu, nhờ vào quy trình làm sạch và tiền xử lý dữ liệu, giúp dễ dàng trích xuất thông tin trong quá trình khai phá.
- Khoa học - thiên văn học: dự đoán đường đi các thiên thể, hành tinh,
- Công nghệ sinh học: tìm ra các gen mới, cây con giống mới,…
- Web: các công cụ tìm kiếm
Trong những năm gần đây, Internet đã trở thành nguồn thông tin đa dạng về nhiều lĩnh vực như khoa học, kinh tế, thương mại và quảng cáo Sự phát triển mạnh mẽ này chủ yếu do chi phí duy trì thấp, giúp người dùng dễ dàng tiếp cận và khai thác thông tin.
Website là tập hợp các trang web bao gồm văn bản, hình ảnh, video và flash, thường có một tên miền hoặc tên miền phụ Các trang web này được lưu trữ trên máy chủ và có thể truy cập qua Internet.
Ngày nay, website đã trở thành một kênh thông tin thiết yếu cho cá nhân và doanh nghiệp trong việc quảng bá và giới thiệu sản phẩm, dịch vụ đến thị trường Có nhiều loại website khác nhau, và việc lựa chọn loại phù hợp phụ thuộc vào nhu cầu và lĩnh vực của người sử dụng Các website có thể được phân loại dựa trên các tiêu chí nhất định.
- Phân loại theo dữ liệu
TIỀN GỬI TIẾT KIỆM
Tiền gửi tiết kiệm là một hình thức gửi tiền tại ngân hàng, phục vụ nhiều mục đích khác nhau của người sử dụng Những lý do và nhu cầu đa dạng khiến khách hàng quyết định gửi tiền vào ngân hàng, trong đó tiền gửi ngân hàng được phân loại dựa trên mục đích sử dụng.
1.2.2.Hình thức tiền gửi tiết kiệm
Tiền gửi tiết kiệm chủ yếu có hai hình thức: tiết kiệm có kỳ hạn và tiết kiệm không kỳ hạn, mỗi loại đều có những đặc điểm riêng và phương pháp tính lãi suất khác nhau.
Tiền gửi tiết kiệm có kỳ hạn là hình thức gửi tiền mà người gửi chỉ có thể rút tiền sau một khoảng thời gian nhất định theo thỏa thuận với ngân hàng Lãi suất được tính dựa trên các kỳ hạn mà ngân hàng quy định, bao gồm các khoảng thời gian như 1 tháng, 2 tháng, 3 tháng, 6 tháng, 12 tháng, 18 tháng, 24 tháng, và 36 tháng.
Tiền gửi tiết kiệm không kỳ hạn cho phép người gửi rút tiền linh hoạt theo nhu cầu mà không cần thông báo trước cho ngân hàng Lãi suất cho loại hình này thường được tính theo số ngày thực gửi, nhưng thường thấp hơn so với gửi tiền có kỳ hạn.
1.2.3.Đặc điểm của tiền gửi tiết kiệm
1.2.3.1 Gửi có thời hạn cụ thể
Khi gửi tiền tiết kiệm, người dùng thường chọn kỳ hạn gửi (3 tháng, 6 tháng, 9 tháng, v.v.), và ngày cuối cùng của mỗi kỳ hạn, gọi là ngày đáo hạn, là thời điểm họ nhận lại số tiền đã gửi Tuy nhiên, khách hàng không nhất thiết phải chọn hình thức gửi có kỳ hạn; họ cũng có thể lựa chọn gửi tiết kiệm không kỳ hạn để có thể tất toán bất cứ lúc nào Tùy thuộc vào mục đích và nhu cầu, mỗi khách hàng sẽ có những lựa chọn khác nhau cho hình thức gửi tiền tiết kiệm phù hợp.
1.2.3.2.Tiền gửi tiết kiệm sinh lãi suất
Lãi suất là yếu tố quyết định trong việc thu hút khách hàng gửi tiền tiết kiệm, với mức trung bình hiện nay khoảng 7% cho kỳ hạn 12 tháng Khách hàng có thể nhận lãi suất cao hơn khi gửi tiền trong thời gian dài hơn Lãi suất tiết kiệm được chia thành hai loại: lãi suất có kỳ hạn, áp dụng cho gửi tiết kiệm có kỳ hạn, và lãi suất không kỳ hạn, áp dụng cho gửi tiết kiệm không kỳ hạn.
Lãi suất không kỳ hạn thường thấp hơn so với lãi suất có kỳ hạn, nhưng gửi tiết kiệm mang lại sự ổn định và ít rủi ro hơn so với các hình thức đầu tư khác như chứng khoán hay bất động sản, mặc dù lợi nhuận không cao.
1.2.3.3.Tiền gửi tiết kiệm được quản lý thông qua sổ tiết kiệm
Sổ tiết kiệm là công cụ quen thuộc tại các ngân hàng, giúp khách hàng quản lý tài khoản tiết kiệm hiệu quả Người sử dụng cần bảo quản sổ tiết kiệm cẩn thận và thường xuyên kiểm tra thông tin cá nhân, số tiền tiết kiệm, cùng các ghi chép liên quan Việc này nhằm phòng ngừa rủi ro và bảo vệ quyền lợi cho cả khách hàng và ngân hàng.
1.2.3.4 Gửi tiết kiệm ổn định an toàn
Gửi tiết kiệm là hình thức đầu tư an toàn và hiệu quả, mang lại sự an tâm cho người dùng Với ít quy định khắt khe và không yêu cầu đóng phí bảo hiểm, gửi tiết kiệm giúp khách hàng yên tâm về khoản tiền gửi của mình Đây là phương thức gửi tiền nhanh chóng và đơn giản, đáp ứng nhu cầu của khách hàng không muốn để tiền "chết" một chỗ Họ luôn mong muốn số tiền tích lũy sinh lời và gia tăng để phục vụ cho các mục tiêu và kế hoạch trong cuộc sống.
1.2.4.Vai trò của tiền gửi tiết kiệm với NHTM
Vốn tiền gửi là yếu tố quyết định cho hầu hết các hoạt động của ngân hàng thương mại, ảnh hưởng trực tiếp đến khả năng thực hiện các chức năng của ngân hàng Thiếu vốn tiền gửi có thể dẫn đến quy mô ngân hàng bị thu hẹp và làm giảm hiệu quả hoạt động Hơn nữa, điều này có thể dẫn đến nguy cơ sụp đổ ngân hàng Để đối phó với thách thức này, các ngân hàng cần huy động vốn bằng cách phát hành giấy tờ có lãi suất cao trên thị trường tiền tệ, nhằm đáp ứng nhu cầu vốn của khách hàng Tuy nhiên, điều này có thể làm tăng chi phí hoạt động và giảm lợi nhuận của ngân hàng.
1.2.5.Những nhân tố tác động tới quyết định gửi tiết kiệm
Uy tín thương hiệu của ngân hàng là yếu tố quan trọng trong lĩnh vực tài chính, đặc biệt được thể hiện qua các sản phẩm dịch vụ gửi tiền tiết kiệm Ngoài lãi suất, điều cốt lõi của sản phẩm, ngân hàng còn cần cung cấp các sản phẩm hiện thực và gia tăng như bảo hiểm tiền gửi và chính sách linh hoạt cho việc rút tiền trước hạn Những yếu tố này kết hợp lại tạo thành một khái niệm sản phẩm dịch vụ hoàn chỉnh, góp phần nâng cao sự tin cậy và giá trị thương hiệu của ngân hàng.
Ảnh hưởng từ những người thân quen đóng vai trò quan trọng trong việc quyết định hành vi của khách hàng, đặc biệt trong lĩnh vực ngân hàng Những áp lực từ bạn bè và gia đình có thể tác động mạnh mẽ đến quyết định mua sản phẩm dịch vụ, đặc biệt là trong giai đoạn trước khi khách hàng lựa chọn ngân hàng để gửi tiết kiệm Sự tư vấn và ý kiến từ những người thân quen giúp khách hàng đưa ra quyết định sáng suốt hơn trong việc chọn lựa ngân hàng phù hợp.
Đội ngũ nhân viên ngân hàng đóng vai trò quan trọng trong hoạt động kinh doanh, vì họ là những người trực tiếp tiếp xúc với khách hàng Thái độ, kỹ năng giao tiếp và phong thái làm việc chuyên nghiệp của nhân viên ảnh hưởng lớn đến uy tín và hình ảnh của ngân hàng Chất lượng phục vụ cao và chuyên nghiệp sẽ tạo ra những đánh giá tích cực từ khách hàng, do đó, chất lượng phục vụ của đội ngũ nhân viên là yếu tố cốt lõi quyết định sự lựa chọn của khách hàng khi gửi tiết kiệm tại ngân hàng.
1.2.6 Ngân hàng đặc biệt có vai trò trong thị trường Việt Nam
KẾT LUẬN CHƯƠNG I
Trong chương này, nhóm nghiên cứu trình bày lý thuyết về khai thác và tổng hợp dữ liệu từ các trang web, cùng các yếu tố ảnh hưởng đến lãi suất và việc
THỰC TRẠNG CÁC KÊNH CUNG CẤP THÔNG TIN LÃI SUẤT VÀ NHU CẦU THÔNG TIN LÃI SUẤT CỦA KHÁCH HÀNG GỬI TIỀN TIẾT KIỆM TẠI VIỆT NAM
2.1.XU HƯỚNG KÊNH TÌM KIẾM THÔNG TIN LÃI SUẤT
Kinh tế phát triển mạnh mẽ đã dẫn đến nhu cầu gửi tiết kiệm của người dân gia tăng đáng kể, với nhiều hình thức gửi tiền đa dạng Theo báo cáo "Chỉ số niềm tin người tiêu dùng" của Nielsen, trong hai năm 2017 và 2018, xu hướng này ngày càng trở nên rõ rệt.
Việt Nam là một trong những quốc gia mà người dân đặc biệt chú trọng đến việc tiết kiệm Người tiêu dùng Việt Nam thường để dành tiền cho tương lai và cho con cái Theo nghiên cứu, 73% số tiền nhàn rỗi của họ được gửi vào ngân hàng dưới dạng tiết kiệm Bài viết "Bức tranh kinh tế Việt Nam" đã chỉ ra rõ nét thói quen tài chính này.
Kinh tế Việt Nam đang phát triển mạnh mẽ, kéo theo nhu cầu vốn cho sản xuất và kinh doanh ngày càng tăng, yêu cầu các ngân hàng phải cải thiện hoạt động
Việc nắm bắt thông tin lãi suất kịp thời là rất quan trọng đối với doanh nghiệp và khách hàng cá nhân tại Việt Nam Các kênh thông tin truyền thống như báo chí và tivi đã trở nên lạc hậu trong thời đại công nghệ 4.0, vì chúng không cung cấp thông tin nhanh chóng Khách hàng có thể đến trực tiếp các chi nhánh ngân hàng để tìm hiểu lãi suất, nhưng phương pháp này tốn thời gian và chỉ cung cấp thông tin của một ngân hàng Với sự phát triển của công nghệ, việc tra cứu lãi suất qua internet trở thành xu hướng phổ biến, cho phép khách hàng dễ dàng tiếp cận thông tin lãi suất công khai của nhiều ngân hàng thông qua các trang báo online và website ngân hàng Phương pháp này không chỉ nhanh chóng, chính xác mà còn tiết kiệm thời gian và chi phí, phù hợp với nhu cầu hiện đại.
2.2.THỰC TRẠNG CÁC KÊNH CUNG CẤP THÔNG TIN LÃI SUẤT VIỆT NAM
Hiện nay, lãi suất tại Việt Nam được công bố trên các trang web chính thức của ngân hàng và được cập nhật hàng ngày, không hiển thị lãi suất cũ Theo Wikipedia, có hơn 100 ngân hàng hoạt động tại Việt Nam với nhiều chi nhánh và văn phòng đại diện.
Nhóm ngân hàng cổ phần nhà nước tại Việt Nam bao gồm năm ngân hàng chính: Viettinbank, Vietcombank, BIDV, Agribank và Ngân hàng Chính sách xã hội (NHCSXH/VBSP) Đặc biệt, NHCSXH hoạt động không vì mục tiêu lợi nhuận, do đó, ảnh hưởng của ngân hàng này tới lãi suất thị trường là rất hạn chế.
Hệ thống quỹ tín dụng ngân hàng Việt Nam bao gồm 31 ngân hàng thương mại cổ phần không trực thuộc ngân hàng nhà nước, trong đó có những ngân hàng lớn như VPBank, Sacombank, TPBank, Techcombank, Eximbank, và nhiều ngân hàng khác như SHBank, MSB, ACB, HDBank, PVcombank, OCB, LPB, DAB, SeABank, VIB, BacABank, Baovietbank, VietABank Bên cạnh đó, thị trường tiền tệ Việt Nam còn có 61 ngân hàng vốn nước ngoài với chi nhánh tại Việt Nam, bao gồm HSBC, Shinhanbank, ANZ, Standard, Citybank, và ngân hàng HongLeong, cùng với 2 ngân hàng liên doanh là Ngân hàng TNHH Indovina (IVB) và Ngân hàng Việt - Nga (VRB).
Tất cả các ngân hàng đều cung cấp thông tin lãi suất và dịch vụ cho khách hàng thông qua website của họ Dưới đây là một số ví dụ về các website thực tế của ngân hàng.
Hình 2.2: Giao diện khung lãi suất của ngân hàng Sacombank
Hình 2.3: Giao diện khung lãi suất của ngân hàng Techcombank
Có thể dễ dàng để nhận thấy rằng trên các trang web của các ngân hàng hiện nay có một số đặc điểm:
Lãi suất ngân hàng chỉ được cập nhật thủ công khi có quyết định tăng hoặc giảm từ các cấp lãnh đạo Mỗi trang web đều hiển thị thời gian cập nhật lãi suất gần nhất của ngân hàng mình.
Nhiều ngân hàng hiện nay không công khai lãi suất trên giao diện chính của website, mà chỉ cung cấp thông tin này qua file đính kèm Điều này gây khó khăn cho khách hàng muốn tìm hiểu lãi suất gửi tiền tiết kiệm, vì họ phải tải file về và thực hiện nhiều thao tác phức tạp, điều này không phải ai cũng dễ dàng thực hiện.
Nhiều trang web hiện nay hiển thị lãi suất theo dạng tĩnh và cung cấp bảng dữ liệu so sánh giữa các ngân hàng, nhưng chưa thực sự trực quan Những trang web này chủ yếu là các nền tảng tin tức, nơi lãi suất chỉ là một phần phụ trợ trong các bài viết về tình hình kinh tế Một số ví dụ điển hình bao gồm: http://www.nganhangdientu.com.vn/lai-suat.html, http://vietbao.vn, https://webgia.com/, và nhiều trang khác như http://www.laisuat.vn/, https://vietnambiz.vn/, https://laisuatnganhang.vn, và http://www.thegioinganhang.vn.
Hình 2.5: Giao diện nguồn cung thông tin lãi suất của Taimienphi
Các website cung cấp thông tin lãi suất ngân hàng hiện nay thường đầy đủ nhưng thiếu rõ ràng, dễ bị lẫn trong quảng cáo ưu đãi Thông tin cập nhật thủ công khiến khách hàng khó theo dõi thay đổi lãi suất kịp thời Do đó, người gửi không có cái nhìn tổng quan và những số liệu cần thiết để đưa ra quyết định gửi tiền an toàn và hiệu quả nhất.
2.3.THỰC TRẠNG NHU CẦU THÔNG TIN TỔNG HỢP VỀ LÃI SUẤT CỦA CÁC NGÂN HÀNG
2.3.1.Đối tượng và phương pháp điều tra, khảo sát
Mục đích của các cuộc điều tra này nhằm:
- Tìm ra các đối tượng có nhu cầu cần thông tin tổng hợp về lãi suất ngân hàng của các ngân hàng theo thời gian thực (i)
Để xác định các chức năng mà các đối tượng quan tâm khi lựa chọn hình thức gửi tiền tiết kiệm tối ưu, nhóm nghiên cứu đã thực hiện phỏng vấn và điều tra
Giai đoạn 1: Tiến hành phỏng vấn sâu trực tiếp với mẫu nhỏ đa dạng về đối tượng
Trong nghiên cứu này, chúng tôi đã chọn các đối tượng từ nhiều lứa tuổi và nghề nghiệp khác nhau nhằm xác định nhu cầu thông tin tổng hợp về lãi suất ngân hàng Dưới đây là bảng thông tin chi tiết về các đối tượng đã được phỏng vấn.
Số lượng người đọc hỏi
Ngành nghề các đối tượng được hỏi Độ tuổi đối tượng được hỏi
Học sinh, sinh viên, người về hưu, cán bộ công chức, kinh doanh tự do, nhân viên phòng lãi suất, nội chợ
Giai đoạn 2: Dựa trên kết quả thu được từ giai đoạn 1, nhóm nghiên cứu tiến hành khảo sát để thu thập thông tin cần thiết, tổng hợp theo các đối tượng đã được xác định trước đó Thông tin này sẽ giúp nâng cao hiệu quả điều tra.
Số lượng người được hỏi Đối tượng hỏi Thông tin hỏi
Nhóm khách hàng cá nhân có nhu cầu gửi tiền tiết kiệm
Anh chị thuộc nhóm tuổi nào?
337 Công việc hiện tại của anh chị là gì?
335 Anh chị đã có tìm hiểu về lãi suất chưa
332 Kênh thôn tin lãi suất nào anh chị thường sử dụng?
337 Các thông tin về lãi suất anh chị quan tâm là gì?
Nhóm khách hàng là nhân viên ngân hàng
Họ và tên của người tham gia khảo sát?
265 Chức vụ của anh chị hiện tại là gì?
265 Đơn vị công tác hiện tại của anh chị?
2.3.2.1.Kết quả khảo sát giai đoạn 1 xác định đối tượng và kênh thông tin
Dưới đây là bảng thống kê các câu trả lời của giai đoạn 1, kết quả được thống kê dưới bảng dưới đây :
Hình 2.6: Kết quả phỏng vấn đối tượng quan tâm đến lãi suất
Hình 2.7: Kết quả phỏng vấn kênh tìm kiếm lãi suất
Chi tiết một số câu trả lời
ỨNG DỤNG KHAI PHÁ DỮ LIỆU WEB XÂY DỰNG WEB TƯ VẤN TỐI ƯU HÓA LỢI ÍCH TIỀN GỬI TIẾT KIỆM CHO NGƯỜI DÂN VÀ
Thông tin trên Internet đang gia tăng nhanh chóng, dẫn đến tình trạng nhiễu thông tin, khiến người dùng gặp khó khăn trong việc tìm kiếm thông tin cần thiết Hiện tại, các trang web cung cấp thông tin lãi suất chủ yếu được đăng tải riêng lẻ trên từng ngân hàng, thiếu một nền tảng tổng hợp thông tin lãi suất theo thời gian thực, gây trở ngại cho khách hàng trong việc ra quyết định gửi tiền tiết kiệm Bên cạnh đó, sự bùng nổ của Internet và cuộc cách mạng thông tin đã tạo ra sự cạnh tranh gay gắt trong ngành ngân hàng, yêu cầu các ngân hàng đầu tư vào hệ thống data warehouse và ứng dụng công nghệ thông tin để khai thác tri thức từ dữ liệu kinh doanh Việc xử lý lượng dữ liệu khổng lồ này đòi hỏi nhiều tài nguyên, thời gian và nhân lực, do đó công nghệ trở thành yếu tố then chốt để hỗ trợ quyết định kinh doanh thông minh và tạo lợi thế cạnh tranh.
Để đáp ứng nhu cầu thông tin lãi suất của người dùng, cần xây dựng một website ứng dụng công nghệ khai phá dữ liệu trên Internet, giúp tiết kiệm nguồn lực và giảm chi phí Website sẽ tổng hợp thông tin lãi suất tiền gửi liên ngân hàng, biểu diễn lãi suất dưới dạng biểu đồ theo thời gian thực để người dùng dễ dàng theo dõi Ngoài ra, website còn cung cấp các module tính toán lãi suất và công cụ tư vấn tối ưu hóa lợi ích tiền gửi cho khách hàng Sau khi chọn ngân hàng mong muốn, người dùng sẽ nhận được gợi ý về các địa điểm giao dịch gần nhất.
Bài toán được phân tích theo khía cạnh hệ thống thông tin như sau:
3.2.1.Đề xuất mô hình hệ thống
Có thể mô tả khái quát kiến trúc hệ thống của Website cung cấp thông tin lãi suất của nhóm nghiên cứu như sau:
Hình 3.1: Kiến trúc hệ thống của Website cung cấp thông tin lãi suất và tư vấn tối ưu hóa lợi ích của nhóm nghiên cứu
Mô hình hệ thống được thiết kế dựa trên mô hình 3 lớp:
Tầng đầu tiên của hệ thống là nơi người dùng tương tác, bao gồm các chức năng của chương trình và giao diện dành cho người sử dụng để thực hiện các chức năng này.
- Tầng thứ 2 mô tả các công nghệ được sử dụng khi xây dựng hệ thống
3.2.2.Kỹ thuật sử dụng trong tìm kiếm các dữ liệu từ website
Trong nghiên cứu này, nhóm nghiên cứu đã sử dụng thư viện CURL của PHP để tự động thu thập, chiết tách và đọc nội dung từ các trang web CURL là một thư viện phổ biến cho việc chuyển đổi dữ liệu qua nhiều giao thức khác nhau như HTTP và FTP Đặc biệt, CURL hỗ trợ hầu hết các phương thức HTTP hiện hành như GET, POST và PUT Bên cạnh đó, CURL cũng cho phép chuyển dữ liệu qua giao thức HTTP và thực hiện xác thực yêu cầu thông qua việc thiết lập header và sử dụng cookies.
Thông thường một ứng dụng CURL thường có 4 bước cơ bản:
- Bước 2: Cấu hình thông số cho CURL
Để sử dụng CURL trong PHP, người dùng cần ngắt CURL và giải phóng dữ liệu CURL cho phép gửi request đến các đường dẫn trên Internet, với khả năng tùy chỉnh thông tin như User Agent để tránh bị chặn Ví dụ, khi đăng nhập vào hệ thống upload file của upfile.vn, người dùng cần sử dụng CURL để gửi request POST nhằm hiển thị giao diện upload trên website của mình Để sử dụng CURL, người dùng phải bật module này trong Apache; nếu sử dụng local, chỉ cần chỉnh sửa file config, còn nếu sử dụng host, cần liên hệ với nhà cung cấp để kích hoạt.
Kết quả của hoạt động là tạo được một cURL với các thông số:
- CURLOPT_URL: đường dẫn tới URL cần xử lý
- CURLOPT_TIMEOUT: Thiết lập thời gian sống của một request CURL
- CURLOPT_FILE: Lưu kết quả vào file
- CURLOPT_POSTFIELDS: là một mảng các kí tự tương ứng với name và value của nó trong các thẻ input khi submit FORM
3.2.3.Kỹ thuật thu thập các thông tin cần thiết về cơ sở dữ liệu
Nhóm nghiên cứu đã áp dụng kỹ thuật Crawler để thu thập dữ liệu từ cơ sở dữ liệu Crawler hoạt động bằng cách tự động phân tích nội dung và trích xuất những thông tin cần thiết dựa trên các tiêu chí được lập trình viên thiết lập.
Hình 3.2: Kiến trúc của một crawler đơn giản
Quá trình xử lý của một crawler được trình bày chi tiết bao gồm các bước:
- Quá trình lựa chọn và chuẩn hóa URL
Khai thác cấu trúc HTML từ một trang web giúp lấy ra các thuộc tính href tương ứng Các URL khác nhau trên cùng một trang web có thể được ánh xạ vào một cấu trúc cơ bản, điều này rất quan trọng để tránh tình trạng trùng lặp thông tin khi trang web bị lặp lại nhiều lần.
- Chuyển giao thức trên máy chủ sang dạng thường, các dạng viết hoa được chuyển đổi thành chữ thường Ví dụ
- Loại bỏ phần anchor hoặc reference của URL (địa chỉ nối)
- Thực hiện mã hóa URL bằng các ký tự thông dụng (loại bỏ các ký tự đặc biệt xuất hiện)
- Sử dụng các kinh nghiệm để nhận ra các trang web mặc định như Trang chủ
- Để lại số hiệu các cổng trong URL ngoại trừ cổng mặc định 80
Kết thúc quá trình các URL hợp lệ được đẩy vào một danh sách URL chưa được ghé thăm
3.2.3.2.Khai phá cấu trúc html
Nhiều website có cấu trúc HTML không chuẩn gây ra sự cố khi thu thập dữ liệu Do đó, việc khai phá và chuẩn hóa cấu trúc HTML là cần thiết Các bước để thực hiện khai phá cấu trúc HTML bao gồm:
- Bước 1: Tải trang web có trong danh sách URL chưa được ghé thăm
- Bước 2: Duyệt trang web vừa được tải về
Để đảm bảo tính tiêu chuẩn của một trang web, bước 3 là kiểm tra cấu trúc HTML bằng các thẻ ngữ cảnh Nếu phát hiện cấu trúc chưa được chuẩn hóa, cần tiến hành chuẩn hóa HTML bằng cách điều chỉnh cấu trúc, chèn thêm các thẻ còn thiếu hoặc biến đổi nội dung cho phù hợp.
- Bước 4: Tiến hành duyệt thu thập dữ liệu
Kết quả của quá trình là phân tích và xử lý cấu trúc HTML để đưa về dạng chuẩn Dưới đây là một trong những cấu trúc web cơ bản thường được sử dụng trên internet.
Hình 3.3: Cấu trúc của HTML trong thẻ tương ứng
Hình 3.4: Cấu trúc của HTML trong thẻ thực tế
3.2.3.3.Thu thập dữ liệu về cơ sở dữ liệu
Quá trình thu thập dữ liệu được tiến hành sau khi đã chuẩn hóa được HTML, các bước tiến hành thu thập dữ liệu như sau:
- Bước 1: Tiến hành mở link truy cập URL có điểm chỉ số đánh giá cao nhất
- Bước 2: Khai báo các thông số của Clrawler trước khi thực hiện để truy cập hợp lệ tránh bị các website chặn kết nối
- Bước 3:Sau khi có quyền truy cập hợp lệ tiến hành để Bot tự động đăng nhập
- Bước 4: Lấy link trong trang hiện tại
- Bước 5:Cài đặt thời gian chờ ( timeout) cho mỗi lần truy suất dữ liệu
- Bước 6: Lấy thông tin được chỉ định theo mục tiêu lãi suất tiền gửi trong form
- Bước 7: Tải thông tin về đẩy vào cơ sở dữ liệu tạm thời
- Bước 8: Tiền xử lý dữ liệu về dạng chuẩn
- Bước 9: Đẩy dữ liệu sau khi đã tiến hành xử lý vào cơ sở dữ liệu trên máy chủ chờ được khai phá
Dưới đây là cấu trúc cơ sở dữ liệu của website cung cấp thông tin lãi suất tiền gửi tiết kiệm được xây dựng bởi nhóm nghiên cứu:
Hình 3.5: Cấu trúccsdl bảng ngân hàng
- id: id của bảng tbl_ngan_hang
- ten_ngan_hang: tên ngân hàng
- link : chứa link dẫn tới trang cần crawl dữ liệu
- gia_tri: giá trị lãi suất tương ứng với tên lãi suất
Hình 3.5: Cấu trúccsdl bảng lãi suất tiết kiệm
Bảng tbl_lai_suat_tiet_kiem
- id_lai_suat: id của bảng tbl_lai_suat_tiet_kiem
- id_ngan_hang: id của ngân hàng tương ứng
- ten_lai_suat: tên lãi suất của ngân hàng theo kỳ hạn
- gia_tri: giá trị lãi suất tương ứng với tên lãi suất
3.2.3.4.Hiển thị dữ liệu về cơ sở dữ liệu
Dữ liệu được bot tự động tải về sẽ được chuẩn hóa và lưu trữ trong các cơ sở dữ liệu, yêu cầu bộ nhớ lớn do khối lượng dữ liệu từ website rất lớn, thường sử dụng Cloud hoặc máy chủ lớn Sau khi lưu trữ, dữ liệu sẵn sàng cho phân tích, tạo ra thông tin hữu ích cho người dùng Việc hiển thị dữ liệu được thực hiện thông qua các thuật toán truy xuất, đưa vào các trang chức năng trên website do nhóm phát triển.
3.3.PHÂN TÍCH THIẾT KẾ WEBSITE
3.3.1.Chức năng trên cổng thông tin
Dựa vào thực trạng nghiên cứu nhóm tiến hành xây dựng các module của website lãi suất bao gồm:
Bảng tổng hợp tiền gửi lãi suất liên ngân hàng được xây dựng dựa trên kết quả nghiên cứu của nhóm, bao gồm 15 ngân hàng uy tín nhất tại Việt Nam năm 2018 Nhóm nghiên cứu quyết định công bố thông tin lãi suất của các ngân hàng này như một thử nghiệm, với khả năng mở rộng thông tin lãi suất trong tương lai Giao diện bảng lãi suất cung cấp cái nhìn tổng quan về lãi suất của 15 ngân hàng lớn và hoạt động hiệu quả, cho phép người dùng nắm bắt tình hình lãi suất theo từng kỳ hạn mà các ngân hàng công bố.
Công cụ tính lãi suất tiền gửi kỳ vọng cho phép người dùng nhập số tiền và kỳ hạn gửi mong muốn Dựa vào lãi suất cố định mà người dùng cung cấp, công cụ sẽ xác định ngân hàng có mức lãi suất cao nhất tại thời điểm đó Kết quả là người dùng sẽ biết được số tiền họ có thể nhận được sau khi kết thúc kỳ hạn gửi.
Khách hàng có thể trực tiếp chọn ngân hàng trên form, dựa vào kỳ hạn mong muốn và ngân hàng đã chọn, để truy xuất lãi suất từ kho dữ liệu và tính toán lãi suất dự kiến cho mình.