Lý do chọn đề tài:Theo số liệu thống kê về tội phạm cụ thể được lập chỉ mục trong Báo cáo Tội phạm thống nhất hàng năm của Cục Điều tra Liên bang FBI và trong Khảo sát Nạn nhân Tội phạm
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HCM
KHOA KINH TẾ
-
-BÀI TẬP CUỐI KÌ
Môn học : Tin học ứng dụng Giảng viên hướng dẫn : Nguyễn Thi Huyền Trang Lớp : APCM230307_22_1_01
\ Sinh viên thực hiện : Phạm Trần Mai Phương
Mã số sinh viên : 21132170
TP Hồ Chí Minh, tháng 12 năm 2022
Trang 2Phân tích tình hình tội phạm tại Bang New York của Hoa Kì từ năm 2010 – 2014
1 Lý do chọn đề tài:
Theo số liệu thống kê về tội phạm cụ thể được lập chỉ mục trong Báo cáo Tội phạm thốngnhất hàng năm của Cục Điều tra Liên bang (FBI) và trong Khảo sát Nạn nhân Tội phạmQuốc gia hàng năm của Cục Thống kê Tư pháp Ngoài Báo cáo tội phạm thống nhấtchính được gọi là Tội phạm ở Hoa Kỳ , FBI công bố các báo cáo hàng năm về tìnhtrạng thực thi pháp luật ở Hoa Kỳ Định nghĩa của báo cáo về tội phạm cụ thể được coi
là tiêu chuẩn của nhiều cơ quan thực thi pháp luật Mỹ.Thấy được điều này, em dựa vàoứng dụng google colab để dễ dàng phân tích và đưa các biểu đồ dẫn chứng cụ thể các sựtác động của các yếu tố Em muốn theo dõi hoạt động giết người trên toàn quốc từ năm
2010 - 2014 để trả lời các câu hỏi sau: Tỷ lệ giết người đã thay đổi như thế nào theo thờigian? Các nhà điều tra đang trở nên hiệu quả hơn trong việc giải quyết và kết thúc các vụ
án giết người? Thông qua những câu hỏi này, em muốn xác định rõ hơn và tóm tắt hoạtđộng tội phạm ở Hoa Kỳ trông như thế nào?
2 Phương pháp nghiên cứu:
Đề tài sử dụng các phương pháp nghiên cứu dựa trên các báo cáo tổng quát tình hìnhdoanh nghiệp trên thế giới Vận dụng, kết hợp chặt chẽ các phương pháp như: phươngpháp logic, phương pháp lịch sử; phương pháp thống kê, tổng hợp, so sánh, phân tích,…Bên cạnh đó vận dụng ứng dụng Google colab để phân tích dữ liệu dễ dàng
3 Đối tượng nghiên cứu:
Đối tượng nghiên cứu của tiểu luận là mức thu nhập trung bình trên thế giới, chủ yếu làthông qua các yếu tố ngành nghề và địa điểm làm việc để đánh giá mức lương chung
4 Mục đích nghiên cứu:
Làm rõ nội dung lý thuyết về các ứng dụng lập trình Python và Google colab Từ đó vận
dụng vào thực tiễn thực hiện nghiên cứu đề tài: “ Phân tích tình hình tội phạm tại Bang
New York của Hoa Kì từ năm 2010 – 2014” Kết quả phục vụ cho việc phân tích và
đánh giá các yếu tố ảnh hưởng tới nguyên nhân gây ra các vụ án
Trang 4Chương 1: Giới thiệu về bài toán và dữ liệu
Trong bài báo cáo này mục tiêu của em:
Dự án Trách nhiệm Giải trình Giết người là cơ sở dữ liệu đầy đủ nhất về các vụ giếtngười ở Hoa Kỳ hiện có Bộ dữ liệu này bao gồm các vụ giết người từ Báo cáo giết người
bổ sung của FBI từ năm 1976 đến nay và dữ liệu của Đạo luật Tự do Thông tin về hơn22.000 vụ giết người không được báo cáo cho Bộ Tư pháp Bộ dữ liệu này bao gồm tuổitác, chủng tộc, giới tính, dân tộc của nạn nhân và thủ phạm, bên cạnh mối quan hệ giữanạn nhân và thủ phạm và vũ khí được sử dụng
Dữ liệu em đã chọn trình bày một cơ sở dữ liệu toàn diện về dữ liệu báo cáo vụ giếtngười ở Hoa Kỳ từ năm 2010 - 2014, bao gồm cả các trường hợp đã được giải quyết vàvẫn đang mở Việc đánh giá và giảm thiểu các vụ giết người đòi hỏi phải điều tra rất phứctạp về các vấn đề kinh tế xã hội, chính trị, tâm lý và giáo dục dẫn đến động cơ Tuynhiên, thông qua cách tiếp cận dữ liệu hậu thực tế, có thể thu thập những hiểu biết sâurộng về cấp độ thống kê quốc gia và hồ sơ cá nhân Em tìm cách sử dụng một cách tiếpcận định lượng để làm sáng tỏ tình trạng tội phạm giết người ở Hoa Kỳ đang thay đổi nhưthế nào và khi làm như vậy, em hy vọng sẽ hỗ trợ đàm phán lại cách thức tiến hành cáccuộc thảo luận về các yếu tố kinh tế xã hội, chính trị, tâm lý và giáo dục
Em muốn theo dõi hoạt động giết người trên toàn quốc từ năm 2010 - 2014 để trả lời cáccâu hỏi sau: Tỷ lệ giết người đã thay đổi như thế nào theo thời gian? Các nhà điều trađang trở nên hiệu quả hơn trong việc giải quyết và kết thúc các vụ án giết người? Thôngqua những câu hỏi này, em muốn xác định rõ hơn và tóm tắt hoạt động tội phạm ở Hoa
Kỳ trông như thế nào
Để làm được điều đó em sẽ sử dụng các đặc điểm của ngôi nhà từ tập dữ liệu nhà ở đượccung cấp bởi Kaggle, tập dữ liệu này được Giáo sư JYZAGUIRRE giới thiệu vào năm2016
Trang 5Chương 2: Xử lý dữ liệu
Dữ liệu của em sử dụng có đường dẫn: homicide-reports
https://www.kaggle.com/datasets/jyzaguirre/us-(hình ảnh minh chứng)
Tập dữ liệu nhà ở này được Giáo sư JYZAGUIRRE giới thiệu vào năm 2016
Tập dữ liệu có 3305 quan sát (hàng) và 14 biến giải thích (cột) trong đó có 8 biến giảithích phân loại (Categorical) và 6 biến giải thích là biến số (Numerical) đã mô tả hầu hếtcác đặc điểm của thủ phạm và nạn nhân từ năm 2010-2014 thông qua các trường dữ liệusau:
Agency Type: Cơ quan thực thi pháp luật đã xử lý vụ việc
State/City: Tiểu bang và Quận của vụ giết người được báo cáo
Year Month/ : Dấu thời gian xảy ra án mạng
Crime Type: Giết người, Ngộ sát hoặc Bất cẩn được chỉ định cho vụ án
Crime Solved: Cho biết vụ án đã được giải quyết hay chưa
Victim Sex/Age/Race: Hồ sơ nạn nhân
Perpetrator Sex/Age/Race: Hồ sơ thủ phạm
Trang 6 Relationship: Thủ phạm có quan hệ với nạn nhân
Weapon : Vũ khí dùng để giết người
Case Open/Closed:Thay đổi chỉ định cho tội phạm được giải quyết
Solve Rate:Tỷ lệ phần trăm báo cáo giết người trong đó trường hợp đã được đóng
lại
2.1 Sắp xếp, lọc dữ liệu
Tệp dữ liệu được tải về “data.csv” không có dữ liệu null
Tuy nhiên dữ liệu quá nhiều vậy nên em đã chắt lọc thông tin đã xác định từ ban đầu đểrút gọn file Bên cạnh đó em thêm 2 cột min/max victim age bằng cách sử dụng copy vàSort & Filter, sau đó chọn Sort A to Z để sắp xếp lại các nhóm
Như vậy, ta được file đã chỉnh sửa sau đây
Trang 72.2 Sử dụng Conditional Formating
- Đầu tiên, cho tô màu vàng cho số nạn nhân có giới tính nam và độ tuổi 18
- Tô màu xanh lá cho số nạn nhân có giới tính nữ và được tính vào năm 2011
- Tô màu xanh dương cho số tội phạm phạm tội giết người và thuộc khu vựcAsian/Pacific Islander
- Tô màu đỏ cho số nạn nhân ở độ tuổi từ 20 đến 50 và thuộc khu vực NativeAmerican/Alaska Native
Trang 82.3 Tạo dashboard và báo cáo
2.4 Viết hàm VBA
Trang 10Chương 3: Phân tích dữ liệu
3.1 T ải lên và kết nối được Google Drive với Google Colab
- Kết nối Google Drive với Google Colab
- Tệp dữ liệu được tải lên Google Drive “Analysis_of_homicide.csv”
3.2 Chạy các lệnh đọc file bằng pandas, sau đó cho biết kích thức của bộ dữ liệu
- Khai báo các thư viện cần sử dụng.
Thư viện pandas là thư viện hỗ trợ đọc, ghi dữ liệu và thực hiện xử lý dữ liệu trêndataframe
Thư viện seaborn dùng để tạo ra các hình ảnh trực quan đẹp mắt trong Python.Thư viện matplotlib là một thư viện sử dụng để vẽ các đồ thị trong Python.Module os là một module tích hợp sẵn với Python, module này cho phép chúng tathao tác với tệp và thư mục
- Đọc bộ dữ liệu
Em bắt đầu bằng cách tạo danh sách các biến có trong tập dữ liệu, sau đó tạo khung dữliệu mới, ReducedData, chỉ bao gồm các biến liên quan đến phân tích của em Có 638454quan sát trong tập dữ liệu và 15 biến
Sau đó, em đã xử lý những dữ liệu phù hợp với giả thuyết mà em đã đưa ra bao gồm:
Crime Type, Crime Solved Victim Sex/Age/Race Perpetrator Sex/Age/Race,, ,
Min/Max Victim Age Và đã được như hình dưới đây:
Trang 11- Bằng việc sử dụng Google Colab, em đã đọc được những thông tin cần thiết từ bộ dữliệu này như sau:
Trang 123.3 Phân tích
3.3.1 Dấu hiệu tội phạm giết người
Trước tiên, em muốn so sánh mức độ thay đổi của tổng số báo cáo, trường hợp đã đóng
và trường hợp đang mở Minh họa bên dưới, tổng số báo cáo giết người được bằng thểhiện biểu đồ cột ngang màu xanh Nhìn chung, kể từ năm 2010, mức độ nghiêm trọng củacác vụ giết người được báo cáo tại thành phố New York đã giảm đáng kể
Trang 13Và theo báo cáo về sự so sánh nhìn chung những vụ án xảy ra không đồng đều giữa cáctháng Tuy vậy nhưng những vụ án xảy ra trong tháng rằng tháng 7 có tổng vụ án caonhất với 345 và thấp nhất là tháng 2 có xấp xỉ 190 vụ án.
Mặc dù mức độ giảm tổng thể là một xu hướng tích cực trong các báo cáo về vụ giếtngười, nhưng sau đó em muốn kiểm tra xem với tình hình tội phạm như thế thì tỉ lệ giảiquyết vụ án như thế nào Em đã kiểm tra các báo cáo giết người hàng năm để quyết định
số liệu thống kê báo cáo hàng năm đang thay đổi như thế nào Và thật bất ngờ rằng tỉ lệgiải quyết vụ án xấp xỉ ngang bằng với tỉ lệ vụ án chưa giải quyết được Biểu hiện rằng tỉ
lệ Yes: 58.34% trong khi đó tỉ lệ No: 41.66%
Trang 14Và em đã sử dụng PivotChart Analyze để thể hiện rõ hơn về tình hình phá giải những vụ
án mỗi tháng trong năm của các cơ quan tổ chức tại thành phố New York
162987 138807
158946 185081 265568
287698 301731 279631
Bên cạch đó em còn vẽ biểu đồ thể hiện giới tính của những người tội phạm điều này chothấy rằng hầu hết những tội phạm nam giới chiếm đa số (54.16%) trong khi đó tội phạm
nữ chỉ chiếm (4.18%) Và nhìn biểu đồ còn cho ta nhận định được sự liên quan giữanhững vụ án chưa được phá với và các thủ phạm vẫn còn chưa được biết đều chiếm41.66%
Trang 15Không những vậy để hiểu rõ hơn những vụ án thuộc loại nào, em đã vẽ ra biểu đồ phânloại vụ án Nhìn biểu đồ ở dưới ta có thể thấy rằng vụ án giết người chiếm nhiều hơn với99,94% trong khi đó vụ án ngộ sát chỉ chiếm 0,06% trong suốt từ năm 2010-2014.
3.3.2 Nạn nhân trong các vụ án
Trang 16Nhìn vào biểu đồ ta có thể nhận thấy rằng tỉ lệ những nạn nhân nam cao hơn những nạnnhân nữ Cụ thể rằng nạn nhân nam chiếm 81.51% tương ứng 258 nạn nhân Trong khi
đó nạn nhân nữ chiếm 18.49% tương ứng với 19 nạn nhân nữ
Bi u đồồ th hi n c cấốu gi a gi i tính và n n nhấn ể ể ệ ơ ữ ớ ạ
Total
Để hiểu rõ hơn em vẽ biểu đồ thể hiện các chủng tộc của những nạn nhân Nhìn hình ta
có thể thấy rằng chủng tộc Black chiếm đa số với 66.35%, chủng tộc White chiếm29.98%, các chủng tộc còn lại chiếm ít hơn với lần lượt là: 2.63% cho Asian/PacificIslander, 0.94% cho Unknow, và 0.09% cho Native American/Alaska Native
Trang 17Em sử dụngPivotChart Analyze
để phân tích rõ hơntổng số nạn nhântheo từng năm Như
ta có thể thấy tổng
số nạn nhân có xuhướng giảm dầntheo từng năm: Năm
Trang 18Để hiểu rõ hơn về độ tuổi của các nạn nhân em đã vẽ biểu đồ thể hiện tổng số nạn nhânnhưng ở đây có sự so sánh giữ nạn nhân nhỏ tuổi và lớn tuổi Với cột màu đỏ thể hiệnnhững nạn nhân lớn tuổi và màu cam thể hiện những nạn nhân nhỏ tuổi.
Bên cạnh đó em phân tích rõ hơn khía cạnh những nạn nhân dưới 21 tuổi có những biếnđộng không đều Biểu đồ thể hiện những nạn nhân cao nhất vào năm 2010 và có xuhướng giảm mạnh vào năm 2011 Tuy nhiên lại tăng nhẹ vào năm 2012 Tuy vậy bằngnhững biện pháp và sự an ninh của thành phố New York thì vào năm 2013 đã giảm mạnhxuống thấp nhất trong những năm từ 2010-2014 Thế nhưng thật đáng buồn rằng năm
2014 lại tăng tổng số nạn nhân trở lại
Dưới đây là biểu đồ boxplot thể hiện giá trị độ tuổi nạn nhân thấp nhất và nạn nhân cao
nhất Cả hai đều có 60 giá trị
Trang 20Cuối cùng em tiếp tục sử dụng PivotChart Analyze để phân tích mối liên hệ giữagiới tính của các nạn nhân và tổng max, min và age.
Kết luận.
Qua bài phân tích trên em biết được số vụ giết người có thể xảy ra trong bất kỳ tháng nào
là một thống kê rất hữu ích vì nó có thể tiết lộ nguyên nhân của những cái chết nhưvậy Nếu một số tháng nhất định có xu hướng xảy ra nhiều vụ giết người hơn nhữngtháng khác thì có thể có điều gì đó đằng sau mức cao nhất về số vụ giết người này Thôngtin này có thể không hữu ích cho công chúng nói chung, tuy nhiên, chính phủ có thểhưởng lợi từ thông tin này nếu họ có thể phát hiện ra (các) nguyên nhân Sau đó, họ cóthể ban hành các chính sách hoặc thực hiện các thay đổi trong nước để ngăn chặn sự giatăng số ca tử vong này xảy ra
Mục tiêu cuối cùng của phân tích trong phạm vi này là đánh giá bằng chứng có sẵn trongviệc xác định hồi tố các phần dữ liệu cung cấp thông tin chi tiết mới về các trường hợpchưa được xử lý, cũng như điều chỉnh các quy trình thực thi xung quanh các dự đoán do
mô hình đưa ra Đặc biệt, việc xác định mối quan hệ nạn nhân-thủ phạm, loại vũ khí vàđịa lý ảnh hưởng như thế nào trong các vụ án giết người là một lĩnh vực cần phải làmnhiều việc hơn Việc mô hình hóa các số liệu này đòi hỏi các mô hình hồi quy tuyến tínhcũng như điều tra thêm về số liệu thống kê mô tả liên quan đến việc tạo hồ sơ nạn nhân