Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 15 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
15
Dung lượng
291,79 KB
Nội dung
TRƯỜNG ĐẠI HỌC MỎ ĐỊA CHẤT BỘ MÔN HỆ THỐNG THƠNG TIN TIỂU LUẬN MƠN HỌC NGƠN NGỮ LẬP TRÌNH R CHO PHÂN TÍCH DỮ LIỆU - 7080232 Họ tên: Vũ Anh Quân Mã số sinh viên: 1821051009 Lớp: DCCTHT63B Cán giảng dạy: Vũ Lan Phương Hà Nội - 2021 Data story: SURVIVAL OF PASSENGERS ON THE TITANIC "Mỗi liệu có câu chuyện để kể Các số dựa vào bạn để đưa tiếng nói rõ ràng thuyết phục cho câu chuyện" - Stephen Few GIỚI THIỆU CHUNG Vào đầu năm 1900, việc buôn bán hành khách xuyên Đại Tây Dương mang lại lợi nhuận cao có tính cạnh tranh Các hãng tàu cạnh tranh để vận chuyển du khách người nhập cư giàu có Vì vậy, J Bruce Ismay William Pirrie nghĩ kế hoạch xây dựng lớp tàu chở hàng lớn biết đến thoải mái thay tốc độ chúng Một số RMS Titanic (Royal Mail Ship đầy đủ Titanic) Tàu Titanic có quán ăn hạng rộng lớn, thang máy hồ bơi Các tiện nghi hạng hai so sánh với tính hạng tàu khác Và dịch vụ hạng ba nó, khiêm tốn, ghi nhận thoải mái tương đối chúng Vụ đắm tàu Titanic kiện tiếng, sách xuất Nhiều thật tiếng - từ tỷ lệ hành khách hạng đến sách “phụ nữ trẻ em hết” thực tế sách khơng hồn tồn thành cơng việc cứu phụ nữ trẻ em khoang hạng ba - phản ánh qua sống mức giá cho hạng hành khách khác Những liệu ban đầu thu thập Hội đồng Thương mại Anh điều tra họ vụ chìm tàu Lưu ý khơng có thống hồn tồn nguồn số lượng xác tàu, cứu bị Đặc biệt nhờ phim thành công "Titanic", năm qua chứng kiến quan tâm công chúng tàu Titanic Dữ liệu chi tiết hành khách có sẵn Internet, trang web Encyclopedia Titanica (https://www.encyclopedia-titanica.org/) Trong viết này, thực số phân tích liệu bản, sau số kỹ thuật tính cuối sử dụng số mơ hình phổ biến để dự đốn Bắt đầu Dataset Trong liệu chuẩn datasets R cung cấp cho ta tập liệu có tên Titanic, Bộ liệu cung cấp thông tin số phận hành khách chuyến gây tử vong tàu biển 'Titanic', tóm tắt theo tình trạng kinh tế (giai cấp), giới tính, tuổi tác sống cịn Dữ liệu Titanic có gì? Trước hết xem tập liệu Titanic có gì, việc cần làm load liệu cách sử dụng hàm data() data(Titanic) Để xem tập liệu Titanic ta dùng hàm head(): head(Titanic) #Take a look at the head of the data frame , , Age = Child, Survived = No Sex Class Male Female 1st 0 2nd 0 3rd 35 17 Crew 0 , , Age = Adult, Survived = No Sex Class Male Female 1st 118 2nd 154 13 3rd 387 89 Crew 670 , , Age = Child, Survived = Yes Sex Class Male Female 1st 2nd 11 13 3rd 13 14 Crew 0 , , Age = Adult, Survived = Yes Sex Class Male Female 1st 57 140 2nd 14 80 3rd 75 76 Crew 192 20 Một mảng chiều kết việc lập bảng chéo 2201 quan sát biến Các biến mức độ chúng sau: No Name Class Levels 1st, 2nd, 3rd, Crew Sex Male, Female Age Child, Adult Survived No, Yes - Class: yếu tố xác định hạng cho hành khách loại dịch vụ tàu cho - thành viên phi hành đoàn 1st = Upper 2nd = Middle 3rd = Lower Sex: yếu tố với cấp độ Nam Nữ Age: Biến cung cấp thông tin tuổi hành khách yếu tố có hai cấp độ (No Yes) xác định liệu người có sống sót sau vụ chìm tàu hay khơng Nếu tơi muốn kích thước liệu, chúng tơi làm: dim(Titanic) [1] 2 Phân loại hành khách Hãy bắt đầu cách khám phá khía cạnh khác 2201 hành khách tập liệu Trước tiên, xem xét phân chia giới tính: count(Titanic, Sex) [1] Female 470 [2] Male 1731 Cả bảng biểu đồ cho biết số nam giới tập liệu gần gấp đôi so với phụ nữ Độ tuổi hành khách Bây tạo hình dung để nắm độ tuổi hành khách tàu Titanic Biểu đồ cách phổ biến để hình dung phân bố biến liên tục Tạo biểu đồ sửa đổi đơn giản ví dụ trước tơi, nơi tơi tạo biểu đồ barplots ggplot(Titanic) + geom_histogram(aes(x = Age), bins = 35) Có vẻ giá trị phổ biến tuổi tác 20 tuổi chút Chúng ta tính tốn rõ ràng độ tuổi mean median sau: mean(Titanic$Age, na.rm = TRUE) [1] 29.88113 median(Titanic$Age, na.rm = TRUE) [1] 28 Có người sống sót? Bây giờ xem sét sống sót tàu Titanic: count(Titanic, Survived) [1] No 1484 [2] Yes 711 ggplot(titanic) + geom_bar(aes(x = Survived)) Tôi thấy Khoảng 60% hành khách chết Sinh tồn chức Age ggplot(Titanic, aes(x=Age, fill=factor(Survived))) + geom_histogram(bins=30)+ facet_grid(.~Sex)+ ggtitle("Age vs Survived")+ scale_fill_discrete(name="Survived") Như thấy, khả sống sót nữ giới lớn khả sống sót nam giới Nam giới 18 tuổi có tỷ lệ sống sót đáng kể ggplot(Titanic, aes(Sex, fill = factor(Survived))) + geom_bar(position = 'fill')+ xlab("Sex") + ylab("Frequency") + scale_fill_discrete(name = "Survived") + ggtitle("Sex vs Survived") Biểu đồ minh họa phụ nữ có tỷ lệ sống sót ~ 75%, nam giới có tỷ lệ sống sót < 25% Sinh tồn chức Class ggplot(Titanic, aes(x=Pclass, fill=factor(Survived))) + geom_bar(position="fill")+ ylab("Frequency")+ scale_fill_discrete(name="Survived")+ ggtitle("Class vs Survived") Từ cốt truyện này, quan sát thấy hành khách khoang hạng có tỷ lệ sống sót 50% Hành khách hạng có tỷ lệ sống sót gần 50% Đối với hành khách hạng 3, tỷ lệ sống sót 25% Box plots Một cách khác để xem liệu sử dụng số tóm tắt gọi "biểu đồ hộp" Đầu tiên biểu đồ boxplot đơn giản, liên quan đến tuổi tác sống còn: Titanic %>% filter(!is.na(age)) %>% ggplot() + geom_boxplot(aes(Suvived, Age)) 10 Biểu đồ hộp mơ tả thơng tin giá trị trung bình (đường dày giữa), phần tư thứ phần tư thứ ba (giá trị 25% thấp hơn, giá trị 75% trên) giá trị ngoại lệ Từ biểu đồ đơn giản này, khơng có khác biệt lớn phân bổ độ tuổi hành khách sống chết Bây xem xét sơ đồ hộp cho sống cịn theo độ tuổi, có điều kiện giới tính Titanic %>% filter(!is.na(age)) %>% ggplot() + geom_boxplot(aes(Suvived, Age, Fill = Sex)) facet_wrap(~sex) 11 Ở bắt đầu thấy mơ hình thú vị Khi so sánh hành khách nam, độ tuổi trung bình người sống sót dường trẻ chút so với người chết Tuy nhiên, so sánh hành khách nữ mơ hình ngược lại diễn 12 Kết luận Đối với hành khách nữ, hạng vé dường có ảnh hưởng mạnh mẽ đến mối quan hệ tuổi tác sống cịn Tơi thấy hầu hết tất nữ hành khách khoang hạng sống sót, mối quan hệ tuổi tác khả sống sót khơng phẳng Các hành khách nữ khoang hạng hai giống nhau, xác suất sống sót hành khách lớn tuổi có giảm chút Lưu ý xác suất sống sót nói chung độ tuổi thấp so sánh hành khách hạng hạng ba 13 Tài liệu tham khảo: Titanic {datasets}, Survival of passengers on the Titanic, https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/Titanic.html Paul M Magwene, Data story: Women and childenn first on the Titanic, https://bio304-class.github.io/bio304-book/data-story-women-and-children-first-onthe-titanic.html Jyoti Singh, Survival of passengers on the Titanic, https://rstudio-pubsstatic.s3.amazonaws.com/370028_029c1fc5d91f4d37a55b1f0b4e8d779f.html 14 ... ggplot(Titanic, aes(x=Pclass, fill=factor(Survived))) + geom_bar(position="fill")+ ylab("Frequency")+ scale_fill_discrete(name="Survived")+ ggtitle("Class vs Survived") Từ cốt truyện này, quan sát thấy hành... ba 13 Tài liệu tham khảo: Titanic {datasets}, Survival of passengers on the Titanic, https://stat.ethz.ch /R- manual /R- devel/library/datasets/html/Titanic.html Paul M Magwene, Data story: Women... Dataset Trong liệu chuẩn datasets R cung cấp cho ta tập liệu có tên Titanic, Bộ liệu cung cấp thông tin số phận hành khách chuyến gây tử vong tàu biển 'Titanic', tóm tắt theo tình trạng kinh