Lý do chọn đề tài:Theo số liệu thống kê về tội phạm cụ thể được lập chỉ mục trong Báo cáo Tội phạm thống nhất hàng năm của Cục Điều tra Liên bang FBI và trong Khảo sát Nạn nhân Tội phạm
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HCM
Trang 2Phân tích tình hình tội phạm tại Bang New York củaHoa Kì từ năm 2010 – 2014
1 Lý do chọn đề tài:
Theo số liệu thống kê về tội phạm cụ thể được lập chỉ mục trong Báo cáo Tội phạm thống nhất hàng năm của Cục Điều tra Liên bang (FBI) và trong Khảo sát Nạn nhân Tội phạm Quốc gia hàng năm của Cục Thống kê Tư pháp Ngoài Báo cáo tội phạm thống nhất chính được gọi là Tội phạm ở Hoa Kỳ , FBI công bố các báo cáo hàng năm về tình trạng thực thi pháp luật ở Hoa Kỳ Định nghĩa của báo cáo về tội phạm cụ thể được coi là tiêu chuẩn của nhiều cơ quan thực thi pháp luật Mỹ.Thấy được điều này, em dựa vào ứng dụng google colab để dễ dàng phân tích và đưa các biểu đồ dẫn chứng cụ thể các sự tác động của các yếu tố Em muốn theo dõi hoạt động giết người trên toàn quốc từ năm 2010 - 2014 để trả lời các câu hỏi sau: Tỷ lệ giết người đã thay đổi như thế nào theo thời gian? Các nhà điều tra đang trở nên hiệu quả hơn trong việc giải quyết và kết thúc các vụ án giết người? Thông qua những câu hỏi này, em muốn xác định rõ hơn và tóm tắt hoạt động tội phạm ở Hoa Kỳ trông như thế nào?
2 Phương pháp nghiên cứu:
Đề tài sử dụng các phương pháp nghiên cứu dựa trên các báo cáo tổng quát tình hình doanh nghiệp trên thế giới Vận dụng, kết hợp chặt chẽ các phương pháp như: phương pháp logic, phương pháp lịch sử; phương pháp thống kê, tổng hợp, so sánh, phân tích,… Bên cạnh đó vận dụng ứng dụng Google colab để phân tích dữ liệu dễ dàng.
3 Đối tượng nghiên cứu:
Đối tượng nghiên cứu của tiểu luận là mức thu nhập trung bình trên thế giới, chủ yếu là thông qua các yếu tố ngành nghề và địa điểm làm việc để đánh giá mức lương chung.
4 Mục đích nghiên cứu:
Làm rõ nội dung lý thuyết về các ứng dụng lập trình Python và Google colab Từ đó vận
dụng vào thực tiễn thực hiện nghiên cứu đề tài: “ Phân tích tình hình tội phạm tại Bang
New York của Hoa Kì từ năm 2010 – 2014” Kết quả phục vụ cho việc phân tích và
đánh giá các yếu tố ảnh hưởng tới nguyên nhân gây ra các vụ án
Trang 3Kết cấu:
Ngoài phần mở đầu và kết luận, đề tài được kết cấu thành 3 chương, bao gồm: Chương 1: Giới thiệu về bài toán và dữ liệu
Chương 2: Xử lý dữ liệu Chương 3: Phân tích dữ liệu
Trang 4Chương 1: Giới thiệu về bài toán và dữ liệu
Trong bài báo cáo này mục tiêu của em:
Dự án Trách nhiệm Giải trình Giết người là cơ sở dữ liệu đầy đủ nhất về các vụ giết người ở Hoa Kỳ hiện có Bộ dữ liệu này bao gồm các vụ giết người từ Báo cáo giết người bổ sung của FBI từ năm 1976 đến nay và dữ liệu của Đạo luật Tự do Thông tin về hơn 22.000 vụ giết người không được báo cáo cho Bộ Tư pháp Bộ dữ liệu này bao gồm tuổi tác, chủng tộc, giới tính, dân tộc của nạn nhân và thủ phạm, bên cạnh mối quan hệ giữa nạn nhân và thủ phạm và vũ khí được sử dụng.
Dữ liệu em đã chọn trình bày một cơ sở dữ liệu toàn diện về dữ liệu báo cáo vụ giết người ở Hoa Kỳ từ năm 2010 - 2014, bao gồm cả các trường hợp đã được giải quyết và vẫn đang mở Việc đánh giá và giảm thiểu các vụ giết người đòi hỏi phải điều tra rất phức tạp về các vấn đề kinh tế xã hội, chính trị, tâm lý và giáo dục dẫn đến động cơ Tuy nhiên, thông qua cách tiếp cận dữ liệu hậu thực tế, có thể thu thập những hiểu biết sâu rộng về cấp độ thống kê quốc gia và hồ sơ cá nhân Em tìm cách sử dụng một cách tiếp cận định lượng để làm sáng tỏ tình trạng tội phạm giết người ở Hoa Kỳ đang thay đổi như thế nào và khi làm như vậy, em hy vọng sẽ hỗ trợ đàm phán lại cách thức tiến hành các cuộc thảo luận về các yếu tố kinh tế xã hội, chính trị, tâm lý và giáo dục.
Em muốn theo dõi hoạt động giết người trên toàn quốc từ năm 2010 - 2014 để trả lời các câu hỏi sau: Tỷ lệ giết người đã thay đổi như thế nào theo thời gian? Các nhà điều tra đang trở nên hiệu quả hơn trong việc giải quyết và kết thúc các vụ án giết người? Thông qua những câu hỏi này, em muốn xác định rõ hơn và tóm tắt hoạt động tội phạm ở Hoa Kỳ trông như thế nào
Để làm được điều đó em sẽ sử dụng các đặc điểm của ngôi nhà từ tập dữ liệu nhà ở được cung cấp bởi Kaggle, tập dữ liệu này được Giáo sư JYZAGUIRRE giới thiệu vào năm 2016.
Trang 5Chương 2: Xử lý dữ liệu
Dữ liệu của em sử dụng có đường dẫn: https://www.kaggle.com/datasets/jyzaguirre/us-homicide-reports
(hình ảnh minh chứng)
Tập dữ liệu nhà ở này được Giáo sư JYZAGUIRRE giới thiệu vào năm 2016.
Tập dữ liệu có 3305 quan sát (hàng) và 14 biến giải thích (cột) trong đó có 8 biến giải thích phân loại (Categorical) và 6 biến giải thích là biến số (Numerical) đã mô tả hầu hết các đặc điểm của thủ phạm và nạn nhân từ năm 2010-2014 thông qua các trường dữ liệu sau:
Agency Type: Cơ quan thực thi pháp luật đã xử lý vụ việc State/City: Tiểu bang và Quận của vụ giết người được báo cáo Year Month/ : Dấu thời gian xảy ra án mạng
Crime Type: Giết người, Ngộ sát hoặc Bất cẩn được chỉ định cho vụ án Crime Solved: Cho biết vụ án đã được giải quyết hay chưa
Victim Sex/Age/Race: Hồ sơ nạn nhân Perpetrator Sex/Age/Race: Hồ sơ thủ phạm
Trang 6 Relationship: Thủ phạm có quan hệ với nạn nhân Weapon : Vũ khí dùng để giết người
Case Open/Closed:Thay đổi chỉ định cho tội phạm được giải quyết
Solve Rate:Tỷ lệ phần trăm báo cáo giết người trong đó trường hợp đã được đóng
2.1 Sắp xếp, lọc dữ liệu
Tệp dữ liệu được tải về “data.csv” không có dữ liệu null.
Tuy nhiên dữ liệu quá nhiều vậy nên em đã chắt lọc thông tin đã xác định từ ban đầu để rút gọn file Bên cạnh đó em thêm 2 cột min/max victim age bằng cách sử dụng copy và Sort & Filter, sau đó chọn Sort A to Z để sắp xếp lại các nhóm.
Như vậy, ta được file đã chỉnh sửa sau đây.
Trang 72.2 Sử dụng Conditional Formating
- Đầu tiên, cho tô màu vàng cho số nạn nhân có giới tính nam và độ tuổi 18
- Tô màu xanh lá cho số nạn nhân có giới tính nữ và được tính vào năm 2011
- Tô màu xanh dương cho số tội phạm phạm tội giết người và thuộc khu vực Asian/Pacific Islander
- Tô màu đỏ cho số nạn nhân ở độ tuổi từ 20 đến 50 và thuộc khu vực Native American/Alaska Native
Trang 82.3 Tạo dashboard và báo cáo
2.4 Viết hàm VBA
Trang 10Chương 3: Phân tích dữ liệu
3.1 Tải lên và kết nối được Google Drive với Google Colab
- Kết nối Google Drive với Google Colab.
- Tệp dữ liệu được tải lên Google Drive “Analysis_of_homicide.csv”
3.2 Chạy các lệnh đọc file bằng pandas, sau đó cho biết kích thức của bộ dữ liệu- Khai báo các thư viện cần sử dụng.
Thư viện pandas là thư viện hỗ trợ đọc, ghi dữ liệu và thực hiện xử lý dữ liệu trên dataframe.
Thư viện seaborn dùng để tạo ra các hình ảnh trực quan đẹp mắt trong Python Thư viện matplotlib là một thư viện sử dụng để vẽ các đồ thị trong Python Module os là một module tích hợp sẵn với Python, module này cho phép chúng ta thao tác với tệp và thư mục.
- Đọc bộ dữ liệu.
Em bắt đầu bằng cách tạo danh sách các biến có trong tập dữ liệu, sau đó tạo khung dữ liệu mới, ReducedData, chỉ bao gồm các biến liên quan đến phân tích của em Có 638454 quan sát trong tập dữ liệu và 15 biến
Sau đó, em đã xử lý những dữ liệu phù hợp với giả thuyết mà em đã đưa ra bao gồm:
Crime Type, Crime Solved Victim Sex/Age/Race Perpetrator Sex/Age/Race,, ,
Min/Max Victim Age Và đã được như hình dưới đây:
Trang 11- Bằng việc sử dụng Google Colab, em đã đọc được những thông tin cần thiết từ bộ dữ liệu này như sau:
Trang 123.3 Phân tích
3.3.1 Dấu hiệu tội phạm giết người
Trước tiên, em muốn so sánh mức độ thay đổi của tổng số báo cáo, trường hợp đã đóng và trường hợp đang mở Minh họa bên dưới, tổng số báo cáo giết người được bằng thể hiện biểu đồ cột ngang màu xanh Nhìn chung, kể từ năm 2010, mức độ nghiêm trọng của các vụ giết người được báo cáo tại thành phố New York đã giảm đáng kể.
Trang 13Và theo báo cáo về sự so sánh nhìn chung những vụ án xảy ra không đồng đều giữa các tháng Tuy vậy nhưng những vụ án xảy ra trong tháng rằng tháng 7 có tổng vụ án cao nhất với 345 và thấp nhất là tháng 2 có xấp xỉ 190 vụ án.
Mặc dù mức độ giảm tổng thể là một xu hướng tích cực trong các báo cáo về vụ giết người, nhưng sau đó em muốn kiểm tra xem với tình hình tội phạm như thế thì tỉ lệ giải quyết vụ án như thế nào Em đã kiểm tra các báo cáo giết người hàng năm để quyết định số liệu thống kê báo cáo hàng năm đang thay đổi như thế nào Và thật bất ngờ rằng tỉ lệ giải quyết vụ án xấp xỉ ngang bằng với tỉ lệ vụ án chưa giải quyết được Biểu hiện rằng tỉ lệ Yes: 58.34% trong khi đó tỉ lệ No: 41.66%.
Trang 14Và em đã sử dụng PivotChart Analyze để thể hiện rõ hơn về tình hình phá giải những vụ án mỗi tháng trong năm của các cơ quan tổ chức tại thành phố New York.
Bên cạch đó em còn vẽ biểu đồ thể hiện giới tính của những người tội phạm điều này cho thấy rằng hầu hết những tội phạm nam giới chiếm đa số (54.16%) trong khi đó tội phạm nữ chỉ chiếm (4.18%) Và nhìn biểu đồ còn cho ta nhận định được sự liên quan giữa những vụ án chưa được phá với và các thủ phạm vẫn còn chưa được biết đều chiếm 41.66%
Trang 15Không những vậy để hiểu rõ hơn những vụ án thuộc loại nào, em đã vẽ ra biểu đồ phân loại vụ án Nhìn biểu đồ ở dưới ta có thể thấy rằng vụ án giết người chiếm nhiều hơn với 99,94% trong khi đó vụ án ngộ sát chỉ chiếm 0,06% trong suốt từ năm 2010-2014.
3.3.2 Nạn nhân trong các vụ án
Trang 16Nhìn vào biểu đồ ta có thể nhận thấy rằng tỉ lệ những nạn nhân nam cao hơn những nạn nhân nữ Cụ thể rằng nạn nhân nam chiếm 81.51% tương ứng 258 nạn nhân Trong khi
đó nạn nhân nữ chiếm 18.49% tương ứng với 19 nạn nhân nữ.
Để hiểu rõ hơn em vẽ biểu đồ thể hiện các chủng tộc của những nạn nhân Nhìn hình ta có thể thấy rằng chủng tộc Black chiếm đa số với 66.35%, chủng tộc White chiếm 29.98%, các chủng tộc còn lại chiếm ít hơn với lần lượt là: 2.63% cho Asian/Pacific Islander, 0.94% cho Unknow, và 0.09% cho Native American/Alaska Native
Trang 17800 nạn nhân, 2011 là 696 nạn nhân, 2012 là 628 nạn nhân, 2013 là 594 nạn nhân, và cuối cùng năm 2014 thấp nhất với 587 nạn nhân.
Trang 18Để hiểu rõ hơn về độ tuổi của các nạn nhân em đã vẽ biểu đồ thể hiện tổng số nạn nhân nhưng ở đây có sự so sánh giữ nạn nhân nhỏ tuổi và lớn tuổi Với cột màu đỏ thể hiện những nạn nhân lớn tuổi và màu cam thể hiện những nạn nhân nhỏ tuổi.
Bên cạnh đó em phân tích rõ hơn khía cạnh những nạn nhân dưới 21 tuổi có những biến động không đều Biểu đồ thể hiện những nạn nhân cao nhất vào năm 2010 và có xu hướng giảm mạnh vào năm 2011 Tuy nhiên lại tăng nhẹ vào năm 2012 Tuy vậy bằng những biện pháp và sự an ninh của thành phố New York thì vào năm 2013 đã giảm mạnh xuống thấp nhất trong những năm từ 2010-2014 Thế nhưng thật đáng buồn rằng năm 2014 lại tăng tổng số nạn nhân trở lại.
Dưới đây là biểu đồ boxplot thể hiện giá trị độ tuổi nạn nhân thấp nhất và nạn nhân cao
nhất Cả hai đều có 60 giá trị.
Trang 20Cuối cùng em tiếp tục sử dụng PivotChart Analyze để phân tích mối liên hệ giữa giới tính của các nạn nhân và tổng max, min và age.
Kết luận.
Qua bài phân tích trên em biết được số vụ giết người có thể xảy ra trong bất kỳ tháng nào là một thống kê rất hữu ích vì nó có thể tiết lộ nguyên nhân của những cái chết như vậy Nếu một số tháng nhất định có xu hướng xảy ra nhiều vụ giết người hơn những tháng khác thì có thể có điều gì đó đằng sau mức cao nhất về số vụ giết người này Thông tin này có thể không hữu ích cho công chúng nói chung, tuy nhiên, chính phủ có thể hưởng lợi từ thông tin này nếu họ có thể phát hiện ra (các) nguyên nhân Sau đó, họ có thể ban hành các chính sách hoặc thực hiện các thay đổi trong nước để ngăn chặn sự gia tăng số ca tử vong này xảy ra.
Mục tiêu cuối cùng của phân tích trong phạm vi này là đánh giá bằng chứng có sẵn trong việc xác định hồi tố các phần dữ liệu cung cấp thông tin chi tiết mới về các trường hợp chưa được xử lý, cũng như điều chỉnh các quy trình thực thi xung quanh các dự đoán do mô hình đưa ra Đặc biệt, việc xác định mối quan hệ nạn nhân-thủ phạm, loại vũ khí và địa lý ảnh hưởng như thế nào trong các vụ án giết người là một lĩnh vực cần phải làm nhiều việc hơn Việc mô hình hóa các số liệu này đòi hỏi các mô hình hồi quy tuyến tính cũng như điều tra thêm về số liệu thống kê mô tả liên quan đến việc tạo hồ sơ nạn nhân
Sum of Max Victim AgeSum of Victim CountSum of Victim Age