Đề tài xây dựng hệ thống phát hiện gian lận thẻ tín dụng

Nhóm em cũng sẽtrình bày một số kỹ thuật và công cụ thường được sử dụng trong lĩnh vực này.Bằng cách thực hiện các ví dụ thực tế và thảo luận về kết quả, nhóm em hyvọng rằng báo cáo này

TỔNG QUAN VỀ HỌC MÁY

Học máy (Machine Learning - ML) là một lĩnh vực quan trọng trong trí tuệ nhân tạo (Artificial Intelligence - AI), cho phép máy tính tự động học từ dữ liệu và cải thiện hiệu suất mà không cần lập trình cụ thể cho từng nhiệm vụ Mục tiêu chính của học máy là phát triển các mô hình có khả năng học hỏi và áp dụng kiến thức từ dữ liệu để giải quyết các vấn đề phức tạp Dưới đây là một số khái niệm và phân loại quan trọng trong học máy.

Dữ liệu là tài nguyên quan trọng nhất trong học máy, bao gồm thông tin số học, hình ảnh, văn bản, âm thanh và nhiều loại dữ liệu khác Nó đóng vai trò thiết yếu trong việc huấn luyện và kiểm tra các mô hình học máy.

Mô hình là thuật toán hoặc cấu trúc máy tính giúp học hỏi từ dữ liệu, tổng hợp kiến thức và áp dụng để dự đoán hoặc phân loại dữ liệu mới.

Quá trình huấn luyện mô hình là việc cung cấp dữ liệu đào tạo và điều chỉnh các tham số, nhằm nâng cao khả năng dự đoán chính xác cho dữ liệu mới.

Sau khi hoàn thành quá trình huấn luyện mô hình, bước tiếp theo là kiểm tra mô hình trên dữ liệu thử nghiệm để xác định tính tổng quát và khả năng dự đoán của nó Việc này giúp đảm bảo rằng mô hình hoạt động hiệu quả trong các tình huống thực tế.

Phân loại là một nhiệm vụ quan trọng trong học máy, nơi mà các mô hình được áp dụng để gán các điểm dữ liệu vào các lớp hoặc nhóm đã được xác định trước Một ví dụ điển hình của phân loại là việc xác định xem một email thuộc loại thư rác hay thư thường.

Hồi quy là một nhiệm vụ quan trọng trong học máy, cho phép dự đoán giá trị số liên tục từ dữ liệu đầu vào Chẳng hạn, mô hình hồi quy có thể được sử dụng để dự đoán giá nhà dựa trên các yếu tố như diện tích và vị trí.

Học tăng cường, một nhánh đặc biệt của học máy, cho phép mô hình học hỏi từ môi trường và các hành động mà nó thực hiện nhằm đạt được mục tiêu cụ thể.

Mạng nơ-ron là mô hình học máy được phát triển dựa trên cấu trúc của não người, thường được ứng dụng trong xử lý hình ảnh và ngôn ngữ tự nhiên.

Học sâu, một phân nhánh của học máy, sử dụng các mạng nơ-ron sâu với nhiều lớp ẩn nhằm xử lý và hiểu các dữ liệu phức tạp.

 Khám phá tri thức (Knowledge Discovery): Quá trình tìm hiểu và rút ra kiến thức có giá trị từ dữ liệu được gọi là khám phá tri thức.

Học máy đang được áp dụng rộng rãi trong nhiều lĩnh vực như xử lý hình ảnh, ngôn ngữ tự nhiên, xe tự hành, tài chính, y tế và quảng cáo trực tuyến Công nghệ này đang cách mạng hóa cách chúng ta làm việc và tương tác hàng ngày.

1.2 Các ứng dụng của học máy Ứng dụng:

Học máy có rất nhiều ứng dụng trong nhiều lĩnh vực khác nhau Dưới đây là một số ứng dụng quan trọng của học máy:

1 Xử lý hình ảnh và video:

 Nhận diện khuôn mặt: Học máy có thể được sử dụng để nhận diện và phân loại khuôn mặt trong ảnh và video.

 Nhận diện vật thể: Dự đoán và phân loại các vật thể trong hình ảnh hoặc video, ví dụ: xe hơi, động vật, đồ vật.

2 Xử lý ngôn ngữ tự nhiên (NLP):

Hệ thống chatbot có thể được phát triển bằng cách sử dụng học máy, cho phép chúng trả lời câu hỏi và tương tác hiệu quả với người dùng thông qua văn bản.

 Dịch máy: Dịch văn bản từ một ngôn ngữ sang ngôn ngữ khác.

 Phân tích cảm xúc: Xác định tình cảm (positve, negative, neutral) trong văn bản.

3 Tư duy máy tính và tự động hóa:

 Xe tự hành: Học máy làm cho xe ô tô tự hành có khả năng nhận biết và phản ứng với môi trường xung quanh.

 Robot tự động: Sử dụng học máy để điều khiển và lập kế hoạch cho robot trong các tác vụ như giao hàng và sản xuất.

4 Y học và chăm sóc sức khỏe:

 Chẩn đoán bệnh: Học máy có thể giúp trong việc chẩn đoán bệnh dựa trên dữ liệu hình ảnh, dữ liệu lâm sàng và lịch sử bệnh lý.

 Dự đoán dịch tễ học: Dự đoán và theo dõi sự lây lan của các căn bệnh như đại dịch và bệnh truyền nhiễm.

5 Tài chính và giao dịch:

 Phân tích tài chính: Dự đoán xu hướng thị trường tài chính, phân tích dữ liệu để đưa ra quyết định đầu tư.

 Phát hiện gian lận: Học máy được sử dụng để phát hiện gian lận trong giao dịch tài chính và thẻ tín dụng.

6 Quảng cáo trực tuyến và tiếp thị:

 Tùy chỉnh quảng cáo: Sử dụng học máy để cá nhân hóa quảng cáo dựa trên dữ liệu người dùng.

 Phân tích cảm xúc của khách hàng: Đánh giá cảm xúc và phản hồi của khách hàng đối với sản phẩm hoặc dịch vụ.

7 Hệ thống gợi ý (Recommendation Systems):

 Gợi ý sản phẩm: Dự đoán và gợi ý sản phẩm cho người dùng dựa trên lịch sử mua sắm hoặc xem sản phẩm trước đó.

 Gợi ý nội dung: Gợi ý các bài viết, video hoặc âm nhạc dựa trên sở thích cá nhân.

8 Công nghiệp và quản lý chuỗi cung ứng:

 Dự đoán nhu cầu sản xuất: Sử dụng học máy để dự đoán nhu cầu sản phẩm và quản lý tồn kho hiệu quả.

 Quản lý chuỗi cung ứng: Cải thiện quy trình vận chuyển, lập kế hoạch sản xuất và quản lý lượng hàng tồn kho.

Học máy đang trở thành một phần thiết yếu trong nhiều lĩnh vực của cuộc sống và kinh tế, với khả năng ứng dụng đa dạng Sự phát triển của công nghệ này sẽ tiếp tục mở rộng và mang lại nhiều cơ hội trong tương lai.

Tìm hiểu về lọc cộng tác

Lọc cộng tác là phương pháp phân loại và lọc thông tin dựa trên hành vi của người dùng hoặc các thực thể tương tự Phương pháp này thường được áp dụng trong hệ thống đề xuất sản phẩm, dự đoán sở thích người dùng, và xếp hạng nội dung từ nhiều nguồn dữ liệu khác nhau Lọc cộng tác giúp tạo ra các khuyến nghị cá nhân hóa dựa trên sự tương đồng giữa người dùng hoặc các thực thể tương tự.

Có hai loại chính của lọc cộng tác:

1 Lọc cộng tác dựa trên người dùng (User-Based Collaborative Filtering):

 Phương pháp này dựa trên việc tìm các người dùng giống nhau dựa trên hành vi hoặc sở thích của họ.

Khi người dùng mới yêu cầu đề xuất, hệ thống sẽ tìm kiếm người dùng có sở thích tương tự để gợi ý các sản phẩm hoặc nội dung mà họ đã yêu thích.

 Để tính toán sự tương đồng giữa người dùng, thông thường sử dụng các phép đo như cosine similarity hoặc Pearson correlation coefficient.

2 Lọc cộng tác dựa trên sản phẩm (Item-Based Collaborative Filtering):

TÌM HIỂU VỀ HỆ THỐNG PHÁT HIỆN

Hệ thống phát hiện gian lận dựa theo lọc cộng tác

Hệ thống phát hiện gian lận thẻ tín dụng dựa trên lọc cộng tác đóng vai trò quan trọng trong bảo mật tài chính và ngăn chặn gian lận giao dịch Hệ thống này tận dụng thông tin từ nhiều nguồn và áp dụng các thuật toán phân tích dữ liệu để nhận diện các giao dịch đáng ngờ.

Hệ thống cần thu thập dữ liệu từ nhiều nguồn khác nhau liên quan đến giao dịch thẻ tín dụng, bao gồm thông tin khách hàng, lịch sử giao dịch và vị trí địa lý.

Hệ thống cần áp dụng thuật toán lọc cộng tác để phân tích dữ liệu và phát hiện các mẫu hoạt động bất thường Phương pháp này giúp xác định mối quan hệ giữa các giao dịch và khách hàng, từ đó nhận diện các dấu hiệu gian lận hiệu quả.

Hệ thống cần phải có khả năng phân tích dữ liệu gần thời gian thực để nhanh chóng phát hiện các giao dịch có nguy cơ gian lận.

Mô hình hóa dữ liệu là quá trình sử dụng các mô hình học máy để dự đoán khả năng gian lận của giao dịch Hệ thống phân tích các yếu tố như lịch sử giao dịch, loại giao dịch, số tiền, địa điểm và các thông tin liên quan khác để đưa ra đánh giá chính xác về rủi ro gian lận.

Hệ thống áp dụng ngưỡng cảnh báo để nhận diện các giao dịch có khả năng gian lận, từ đó thông báo kịp thời cho nhân viên xác thực.

Hệ thống phát hiện gian lận cần áp dụng học máy để liên tục cập nhật và cải thiện hiệu suất, bằng cách học hỏi từ dữ liệu mới thông qua các thuật toán học máy.

Hệ thống cần cung cấp báo cáo chi tiết về các giao dịch có khả năng gian lận, giúp nhân viên xác thực dễ dàng xem xét và xử lý các sự cố.

Hệ thống cần được tích hợp chặt chẽ với quy trình an toàn tài chính của tổ chức, nhằm đảm bảo rằng các biện pháp an toàn được thực hiện kịp thời và hiệu quả.

Bảo mật dữ liệu là một yếu tố quan trọng hàng đầu trong việc xử lý thông tin nhạy cảm, đặc biệt là thông tin về thẻ tín dụng của khách hàng Việc bảo vệ dữ liệu không chỉ giúp duy trì lòng tin của khách hàng mà còn đảm bảo an toàn cho các giao dịch trực tuyến.

Hệ thống cần tuân thủ các quy định và tiêu chuẩn bảo mật thông tin tài chính, đặc biệt là tiêu chuẩn PCI DSS (Payment Card Industry Data Security Standard), nhằm đảm bảo an toàn cho dữ liệu tài chính.

Hệ thống phát hiện gian lận thẻ tín dụng sử dụng lọc cộng tác là một giải pháp quan trọng nhằm bảo vệ tài sản của khách hàng và các tổ chức tài chính.

Nó kết hợp nhiều kỹ thuật và công nghệ để xác định các hoạt động gian lận và đưa ra cảnh báo để có thể xử lý kịp thời.

Hệ thống phát hiện gian lận dựa theo nội dung

Hệ thống cần thu thập dữ liệu chi tiết về giao dịch thẻ tín dụng, bao gồm số thẻ, ngày hết hạn, số tiền giao dịch, địa điểm và các thông tin liên quan khác.

Hệ thống sử dụng thuật toán phân tích dữ liệu và mô hình học máy để phát hiện các biểu hiện gian lận, bằng cách so sánh giao dịch mới với các mẫu gian lận đã được xác định trước.

Hệ thống phân tích nội dung giao dịch kiểm tra chi tiết các thông tin mô tả sản phẩm hoặc dịch vụ được mua Việc này giúp phát hiện sự không phù hợp giữa nội dung và loại giao dịch, từ đó nâng cao tính chính xác và hiệu quả trong các giao dịch thương mại.

Hệ thống có khả năng xác minh tính hợp pháp của giao dịch bằng cách đối chiếu nội dung và thông tin khách hàng với các quy định và chính sách của tổ chức tài chính.

Hệ thống thiết lập các ngưỡng cảnh báo nhằm xác định thời điểm cần thông báo về giao dịch có nguy cơ gian lận cho nhân viên xác thực hoặc khách hàng.

Hệ thống có khả năng tích hợp dữ liệu từ các nguồn bên ngoài, chẳng hạn như danh sách gian lận đã được xác định và thông tin về mô hình mối quan hệ của khách hàng.

Hệ thống cần liên tục cập nhật và học hỏi từ dữ liệu mới, nhằm nâng cao hiệu suất phát hiện gian lận thông qua việc áp dụng các thuật toán học máy.

Hệ thống cần cung cấp các báo cáo chi tiết về giao dịch có nguy cơ gian lận, giúp nhân viên xác thực dễ dàng xem xét và xử lý các sự cố.

Bảo mật dữ liệu là yếu tố thiết yếu trong việc bảo vệ thông tin nhạy cảm, đặc biệt là thông tin thẻ tín dụng của khách hàng Việc đảm bảo an toàn cho dữ liệu không chỉ giúp xây dựng lòng tin từ phía khách hàng mà còn giảm thiểu rủi ro liên quan đến việc lộ thông tin cá nhân.

Hệ thống cần đảm bảo tuân thủ các quy định và tiêu chuẩn bảo mật thông tin tài chính, đặc biệt là tiêu chuẩn PCI DSS (Payment Card Industry Data Security Standard).

Hệ thống phát hiện gian lận thẻ tín dụng dựa trên nội dung đóng vai trò quan trọng trong việc bảo vệ an toàn và bảo mật cho các giao dịch thẻ tín dụng, đồng thời ngăn chặn hiệu quả các hành vi gian lận.

Hệ thống phát hiện gian lận dựa trên cơ sở tri thức

Hệ thống thu thập thông tin và kiến thức ban đầu về gian lận là rất quan trọng, bao gồm việc phân tích lịch sử giao dịch, nhận diện các mẫu gian lận đã biết, sử dụng dữ liệu thẻ tín dụng của khách hàng và áp dụng các quy tắc an toàn để ngăn chặn các hành vi gian lận hiệu quả.

Mô hình hóa tri thức là quá trình xây dựng các mô hình tri thức dựa trên thông tin thu thập được, bao gồm các luật, quy tắc, biểu đồ tri thức và hệ thống ghi chép tri thức.

Sử dụng tri thức để phân tích giao dịch thẻ tín dụng là một phương pháp quan trọng trong việc phát hiện gian lận Khi một giao dịch mới diễn ra, hệ thống sẽ so sánh nó với các thông tin và biểu hiện đã biết từ các trường hợp gian lận trước đó Quá trình này giúp xác định xem giao dịch có dấu hiệu tương tự với những trường hợp gian lận đã được ghi nhận hay không.

Hệ thống sẽ xác định các giao dịch có nguy cơ gian lận dựa trên tri thức, từ đó tạo ra cảnh báo hoặc thực hiện các biện pháp khắc phục cần thiết.

Hệ thống không ngừng học hỏi và cập nhật tri thức từ dữ liệu mới cũng như các sự kiện gian lận, nhằm nâng cao khả năng phát hiện gian lận và cải thiện hiệu suất của mình.

Hệ thống cung cấp báo cáo chi tiết về các giao dịch có nguy cơ gian lận, giúp nhân viên xác thực và quản lý dễ dàng xử lý các sự cố.

Hệ thống cần tuân thủ các quy định và tiêu chuẩn bảo mật thông tin tài chính, bao gồm PCI DSS (Tiêu chuẩn Bảo mật Dữ liệu Ngành Thẻ Thanh Toán), để đảm bảo an toàn cho dữ liệu tài chính.

Hệ thống phát hiện gian lận thẻ tín dụng dựa trên tri thức mang lại lợi ích trong việc nhận diện các mô hình gian lận mới mà không bị giới hạn bởi các quy tắc cứng nhắc Khả năng học hỏi và thích nghi của nó giúp cải thiện hiệu quả bảo vệ tài sản cho khách hàng và tổ chức tài chính.

So sánh các phương pháp phát hiện gian lận thẻ tín dụng

2.3.1 Hệ thống phát hiện gian lận dựa theo lọc cộng tác

Hệ thống lọc cộng tác mang lại nhiều ưu điểm nổi bật trong việc phát hiện gian lận Đầu tiên, nó có khả năng phát hiện các hình thức gian lận phức tạp hơn so với các phương pháp truyền thống, nhờ vào việc phân tích mối quan hệ phức tạp giữa các yếu tố khác nhau Thứ hai, hệ thống này có thể xử lý lượng dữ liệu lớn và phức tạp, cho phép thực hiện phân tích dữ liệu thời gian thực để nhanh chóng xác định các giao dịch có nguy cơ gian lận Thứ ba, với khả năng học máy và cập nhật liên tục, hệ thống không ngừng cải thiện hiệu suất phát hiện gian lận theo thời gian, đồng thời đối phó hiệu quả với các hình thức gian lận mới Cuối cùng, nó còn có khả năng xác định các giao dịch gian lận liên quan, giúp tạo ra cái nhìn sâu sắc về cách các hoạt động gian lận có thể kết nối với nhau.

Hệ thống lọc cộng tác gặp phải một số nhược điểm đáng lưu ý Đầu tiên, nó yêu cầu một lượng lớn dữ liệu để hoạt động hiệu quả, điều này có thể trở thành thách thức cho các tổ chức mới hoặc nhỏ Thứ hai, việc triển khai và duy trì hệ thống này tốn kém về thời gian và nguồn lực, đòi hỏi sự tham gia của các chuyên gia trong lĩnh vực khoa học dữ liệu và học máy Thứ ba, hệ thống có nguy cơ tạo ra nhiều cảnh báo sai (false positives), dẫn đến sự bất tiện cho khách hàng và áp lực cho nhân viên xác thực Thứ tư, tính phức tạp của hệ thống khiến việc hiểu và giải thích lý do tại sao một giao dịch được xem là có nguy cơ gian lận trở nên khó khăn Cuối cùng, việc bảo mật dữ liệu nhạy cảm, như thông tin thẻ tín dụng, là một vấn đề quan trọng, yêu cầu nhiều biện pháp bảo mật phức tạp để đảm bảo an toàn.

2.3.2 Hệ thống phát hiện gian lận dựa theo nội dung

Hệ thống phát hiện gian lận thẻ tín dụng mang lại nhiều ưu điểm nổi bật Đầu tiên, nó phân tích chi tiết nội dung giao dịch, giúp xác định sự không phù hợp giữa sản phẩm và loại giao dịch Thứ hai, hệ thống có khả năng phát hiện các mẫu gian lận mới mà không bị giới hạn bởi quy tắc cũ, cho phép nhận diện các biểu hiện gian lận phức tạp Thứ ba, việc xem xét nội dung chi tiết giúp giảm thiểu số lượng cảnh báo không chính xác về gian lận, từ đó giảm bất tiện cho khách hàng Hơn nữa, hệ thống có thể tùy chỉnh để hiểu ngôn ngữ và ngữ cảnh địa phương, nâng cao khả năng phát hiện gian lận trong các giao dịch quốc tế Cuối cùng, nhờ vào công nghệ học máy, hệ thống liên tục cập nhật và cải thiện hiệu suất phát hiện gian lận theo thời gian.

Nó có khả năng thích nghi với các hình thức gian lận mới.

Hệ thống này có một số nhược điểm đáng lưu ý Đầu tiên, nó yêu cầu một lượng lớn dữ liệu chi tiết về giao dịch thẻ tín dụng, điều này có thể gây khó khăn cho các tổ chức mới hoặc nhỏ Thứ hai, việc triển khai và duy trì hệ thống tốn kém về thời gian và tài nguyên, đòi hỏi chuyên môn trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và phân tích dữ liệu Thứ ba, do xử lý thông tin nhạy cảm về thẻ tín dụng, bảo mật dữ liệu trở thành một vấn đề quan trọng, cần nhiều biện pháp bảo vệ phức tạp Cuối cùng, hệ thống dựa trên NLP thường khó hiểu và việc giải thích lý do một giao dịch bị nghi ngờ gian lận có thể gặp khó khăn.

2.3.3 Hệ thống phát hiện gian lận dựa trên cơ sở tri thức

Hệ thống phát hiện gian lận mang lại nhiều ưu điểm nổi bật, bao gồm khả năng phát hiện gian lận dựa trên kiến thức sâu rộng về các mẫu và biểu hiện bất thường Nó có khả năng xác định các mẫu gian lận mới mà không cần quy tắc cố định, từ đó nâng cao khả năng phát hiện các hình thức gian lận tiên tiến Hệ thống cũng tích hợp thông tin từ nhiều nguồn khác nhau, như dữ liệu lịch sử giao dịch và kiến thức về các mẫu gian lận đã biết, tạo ra cái nhìn tổng quan và phức tạp hơn về các giao dịch Đặc biệt, khả năng học hỏi và cập nhật liên tục từ dữ liệu mới giúp cải thiện hiệu suất phát hiện gian lận theo thời gian.

Hệ thống dựa trên cơ sở tri thức có một số nhược điểm đáng lưu ý Đầu tiên, nó yêu cầu một lượng lớn dữ liệu và kiến thức ban đầu, điều này có thể gây khó khăn cho các tổ chức nhỏ hoặc mới thành lập Thứ hai, việc triển khai và duy trì hệ thống này thường phức tạp và tốn kém về thời gian, đòi hỏi sự tham gia của các chuyên gia trong lĩnh vực khoa học dữ liệu và học máy Thêm vào đó, hệ thống có thể tạo ra nhiều cảnh báo sai (false positives), gây bất tiện cho khách hàng và tạo áp lực cho nhân viên xác thực Cuối cùng, sự phức tạp của hệ thống khiến cho việc hiểu và giải thích lý do tại sao một giao dịch bị xem là có nguy cơ gian lận trở nên khó khăn.

XÂY DỰNG HỆ THỐNG PHÁT HIỆN GIAN LẬN THẺ TÍN DỤNG VỚI COLAB GOOGLE

Cơ sở dữ liệu

B1: Dữ liệu thẻ tín dụng

B2: Xử lý trước dữ liệu

B4: Chia dữ liệu thành hai tập dữ liệu con riêng biệt

B5: Mô hình hồi quy logistic

Code chương trình và kết quả

3.2.1 Kết nối google drive với google colab

Để kết nối Google Drive với Google Colab, trước tiên bạn cần chạy đoạn mã cung cấp Sau khi thực hiện thành công, hệ thống sẽ yêu cầu bạn xác thực tài khoản Google Khi bạn xác thực thành công, bước đầu tiên trong quá trình kết nối đã được hoàn thành.

3.2.2 Khai báo các thư viện

- Sau khi kết nối drive thành công, cần kết nối với các thư viện để thực hiện dự án:

Thư viện 'numpy' là công cụ hữu ích cho việc thực hiện các phép toán toán học cơ bản, thao tác trên mảng, biến đổi dữ liệu và chuẩn hóa dữ liệu một cách dễ dàng.

+ Thư viện ‘pandas’dùng để hỗ trợ quá trình chuẩn bị và xử lý dữ liệu trước khi áp dụng các thuật toán machine learning

Module ‘sklearn.model_selection’ trong thư viện scikit-learn hỗ trợ trong machine learning bằng cách chia tách dữ liệu, đánh giá hiệu suất của mô hình và tinh chỉnh các siêu tham số.

Module ‘sklearn.linear_model’ trong thư viện scikit-learn (sklearn) là công cụ quan trọng cho machine learning, cho phép thực hiện các mô hình hồi quy tuyến tính và phân loại dựa trên mô hình tuyến tính Nó cung cấp các công cụ và mô hình hữu ích để giải quyết các bài toán với dữ liệu có dạng tuyến tính.

Module ‘sklearn.metrics’ trong thư viện scikit-learn (sklearn) đóng vai trò quan trọng trong việc đánh giá hiệu suất và chất lượng của các mô hình học máy Nó cung cấp nhiều hàm và mét rics để đo lường, so sánh hiệu quả của các mô hình dự đoán với dữ liệu thực tế.

3.2.3 Đọc dữ liệu và hiển thị 1 số mẫu bộ dữ liệu

- đọc dữ liệu bằng dòng mã thứ nhất , trong đó ‘pd.read_csv()’ là đoạn mã đọc dữ liệu

- dòng mã thứ 2 là hiển thị dữ liệu , trong đó, ‘.head()’ là hiển thị 5 hàng đầu tiên

3.2.4 Xem 1 số hàng cuối cùng trong bộ dữ liệu

- Trên là đoạn mã hiển thị dữ liệu, trong đó, ‘.tail()’ là hiển thị 5 hàng cuối cùng

3.2.5 Xem thông tin của bộ dữ liệu

Sử dụng phương thức ‘.info()’ để xem thông tin chi tiết về dữ liệu, bao gồm kiểu dữ liệu của từng cột, số lượng giá trị không null, và tổng số hàng trong DataFrame.

3.2.6 Kiểm tra số lượng giá trị còn thiếu trong mỗi cột

- Sử dụng ‘,isnull().sum()’ để đếm số lượng giá trị còn thiếu của mỗi cột trong bộ dữ liệu

3.2.7 Phân bổ giao dịch hợp pháp và giao dịch gian lận

Đoạn mã trên thực hiện việc đếm số lần xuất hiện của các giá trị riêng biệt trong cột 'Class' của bộ dữ liệu, từ đó giúp kiểm tra và phân tích phân bổ của các giá trị này.

3.2.8 Tách dữ liệu để phân tích

Đoạn mã trên nhằm xác định các giao dịch bất hợp pháp (có giá trị cột 'Class' bằng 0) và hợp pháp (có giá trị cột 'Class' bằng 1) trong bộ dữ liệu Sử dụng phương thức '.shape', chúng ta có thể xem kích thước của các giao dịch này, với kết quả cho thấy có 284315 hàng và 492 hàng cho giao dịch bất hợp pháp, cùng với 31 cột cho cả hai loại giao dịch.

3.2.9 Thước đo thống kê của dữ liệu

Đoạn mã trên cung cấp một tóm tắt thống kê cho cột 'Amount' của các giao dịch hợp pháp, bao gồm các chỉ số cơ bản như giá trị trung bình, độ lệch chuẩn, giá trị tối thiểu, các phần centile và giá trị tối đa.

3.2.10 Phân tích cột amout của giao dịch bất hợp pháp

Đoạn mã trên thực hiện việc tóm tắt thống kê cho cột 'Amount' của các giao dịch hợp pháp, bao gồm các chỉ số cơ bản như giá trị trung bình, độ lệch chuẩn, giá trị tối thiểu, các phần centile và giá trị tối đa.

3.2.11 So sánh giá trị của cả 2 giao dịch

Đoạn mã này nhằm mục đích so sánh giá trị của các giao dịch hợp pháp và bất hợp pháp, thông qua việc tính toán giá trị trung bình cho từng cột Cụ thể, cột 'Class' được sử dụng để phân loại dữ liệu thành hai nhóm: 0 cho giao dịch hợp pháp và 1 cho giao dịch bất hợp pháp.

3.2.12 Tạo dữ liệu giao dịch hợp pháp mới

Để tối ưu hóa mô hình LogisticRegression, cần phải cân bằng bộ dữ liệu do sự chênh lệch lớn giữa giao dịch hợp pháp (284315) và giao dịch bất hợp pháp (492) Chúng ta sẽ tạo ra một bộ dữ liệu mới với 492 giao dịch hợp pháp, được lấy ngẫu nhiên từ 284315 giao dịch hợp pháp trong bộ dữ liệu cũ, kết hợp với 492 giao dịch bất hợp pháp, nhằm đảm bảo tính đồng nhất và cải thiện hiệu suất của mô hình.

3.2.13 Tạo bộ dữ liệu mới

- Đoạn mã trên giúp ta tạo 1 bộ dữ liệu mới gồm 492 giao dịch hợp pháp và 492 giao dịch bất hợp pháp

3.2.14 Xem lại 5 hàng đầu bộ dữ liệu mới

3.2.15 Xem lại 5 hàng cuối bộ dữ liệu mới

3.2.16 Tổng hợp giá trị cột class của bộ dữ liệu mới

3.2.17 So sánh giá trị trong cột class

3.2.18 Chia dữ liệu thành tính năng & mục tiêu

Mã trên nhằm tạo ra hai bộ dữ liệu X và Y từ bộ dữ liệu cân bằng đã được tạo Bộ dữ liệu X bao gồm tất cả các cột trừ cột 'Class', trong khi bộ dữ liệu Y chỉ chứa cột 'Class'.

3.2.21 Chia dữ liệu thành dữ liệu đào tạo & dữ liệu kiểm tra

Để thực hiện việc training và test hiệu quả, chúng ta cần tạo ra các tập dữ liệu cho quá trình training bao gồm X_train và Y_train, cùng với các tập dữ liệu để test là X_test và Y_test Chúng ta có thể sử dụng đoạn mã dưới đây để tạo các dữ liệu này Sau khi hoàn tất việc tạo dữ liệu, hãy sử dụng câu lệnh ‘.shape’ để kiểm tra kích thước tổng quát của các bộ dữ liệu đã được tạo ra.

Sau khi hoàn tất quá trình huấn luyện, chúng ta áp dụng đoạn mã dưới đây để đánh giá hiệu quả của việc đào tạo, thực hiện trên cả tập dữ liệu huấn luyện và tập dữ liệu kiểm tra.

Tiêu đề	Xây Dựng Hệ Thống Phát Hiện Gian Lận Thẻ Tín Dụng
Tác giả	Nguyễn Đức Hoài Nam, Phan Văn Đạt, Đỗ Minh Quang
Người hướng dẫn	Vũ Văn Định
Trường học	Trường Đại Học Điện Lực
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	báo cáo chuyên đề
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	30
Dung lượng	2,36 MB