Kiểu dữ liệu Pattern of data The center of a distribution is located at the median of the distribution. • This is the point where about half of the observations are on either side. Các phân phối trung tâm nằm tại trung vị của phân phối. Đây là điểm mà khoảng một nửa số quan sát được hai bên
Pattern of data Kiểu liệu Part – section Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn Center • The center of a distribution is located at the median of the distribution Các phân phối trung tâm nằm trung vị phân phối • This is the point where about half of the observations are on either side Đây điểm mà khoảng nửa số quan sát hai bên Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn Spread • The spread of a distribution refers to the variability of the data Sự dàn trải phân phối đề cập đến thay đổi liệu • If the observations cover a wide range, the spread is larger If the observations are clustered around a single value, the spread is smaller Nếu quan sát bao quát phạm vi rộng, dàn trải lớn Nếu quan sát nhóm quanh giá trị nhất, dàn trải nhỏ Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn Shape • The shape of a distribution is described by the following characteristics Hình dạng phân phối mô tả đặc điểm sau – Symmetry tính đối xứng – Number of peaks Distributions can have few or many peaks Số đỉnh Phân phối có nhiều đỉnh • Distributions with one clear peak are called unimodal, Phân phối với đỉnh rõ ràng gọi unimodal • and distributions with two clear peaks are called bimodal phân phối với hai đỉnh rõ ràng gọi bimodal Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn Shape • And by the following characteristics Và đặc điểm sau Skewness Distributions with most of their observations on the left – (toward lower values) are said to be skewed right; and so on Độ lệch Phân phối với hầu hết quan sát bên trái (hướng giá trị thấp hơn) cho lệch phải; Uniform When the observations in a set of data are equally spread – across the range of the distribution, the distribution is called a uniform distribution Đồng Khi quan sát liệu dàn trải đồng phạm vi phân phối, phân phối gọi phân bố Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn Shape Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn Gap and outlier Khỏang trống điểm dị biệt • Gaps: areas of a distribution where there are no observations Những khoảng trống: khu vực phân phối mà khơng có quan sát • Outliers: distributions are characterized by extreme values that differ greatly from the other observations Điểm dị biệt: phân phối đặc trưng giá trị xa có khác biệt lớn từ quan sát khác Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn Chart and graph Biểu đồ đồ thị Đồ thị điểm Dotplot • A dotplot is made up of dots plotted on a graph Một Đồ thị điểm tạo thành từ chấm vẽ đồ thị Each dot can represent a single observation or a specified – number of observations Mỗi dấu chấm đại diện cho quan sát đơn lẻ số xác định quan sát – The dots are stacked in a column over a category Các dấu chấm xếp chồng lên cột danh mục – If the categories are quantitative, the pattern of data in a dotplot can • be described in terms of symmetry and skewness Nếu loại định lượng, mơ hình liệu dotplot mô tả dạng đối xứng độ lệch Dotplots are used most often to plot frequency counts within a small number of categories, usually with small sets of data Dotplots sử dụng thường xuyên để đếm tần suất dự kiến số lượng nhỏ loại, thường với liệu nhỏ Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn Dotplot • In SPSS: Graphs Legacy dialogs Scatter/ Dot Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn Chart and graph Bar Charts Biểu đồ dạng • A bar chart is made up of columns plotted on a graph Biểu đồ tạo thành từ cột vẽ đồ thị – The columns are positioned over a label that represents a categorical variable Các cột xác định nhãn đại diện cho biến phân loại – The height of the column indicates the size of the group defined by the column label Chiều cao cột kích thước nhóm xác định nhãn cột Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn 10 Chart and graph Difference Between Bar Charts and Histograms • With bar charts, each column represents a group defined by a categorical variable; and with histograms, each column represents a group defined by a quantitative variable Với biểu đồ cột, cột đại diện cho nhóm xác định biến phân loại; với biểu đồ, cột đại diện cho nhóm xác định biến định lượng • It is always appropriate to talk about the skewness of a histogram And how about bar charts? Nó ln ln thích hợp để nói độ lệch biểu đồ Và biểu đồ cột nào? Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn 13 Chart and graph Stemplots Biểu đồ cành • A stemplot is used to display quantitative data, generally from small data sets (50 or fewer observations) Một stemplot sử dụng để hiển thị liệu định lượng, thông thường từ tập liệu nhỏ (50 quan sát hơn) • The entries on the left are called stems; and the entries on the right are called leaves Các mục bên trái gọi cành; mục bên phải gọi • Stemplots usually not include explicit labels for the stems and leaves Stemplots thường không bao gồm nhãn rõ ràng cho cành Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn 14 Stemplot (Stem and leaf) Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn 15 Chart and graph Boxplot Basics Nền tảng biểu đồ hộp A boxplot splits the data set into quartiles The body of the boxplot • consists of a "box” which goes from the first quartile (Q1) to the third quartile (Q3) Một boxplot chia tách tập liệu thành tứ phân vị Thân boxplot bao gồm "hộp" mà từ tứ phân vị (Q1) vào tứ phân vị thứ ba (Q3) • Within the box, a vertical line is drawn at the Q2, the median of the data set • Two horizontal lines, called whiskers, extend from the front and back of the box The front whisker goes from Q1 to the smallest non-outlier in the data set, and the back whisker goes from Q3 to the largest non-outlier Trong hộp, đường thẳng đứng vẽ Q2, số trung vị tập liệu Hai đường ngang, gọi râu, kéo dài từ phía trước phía sau hộp Các ria phía trước từ Q1 đến điểm không dị biệt nhỏ tập hợp liệu, râu ria lại từ Q3 đến điểm khơng dị biệt lớn • If the data set includes one or more outliers, they are plotted separately as points on the chart Nếu tập hợp liệu bao gồm nhiều giá trị dị biệt, chúng vẽ riêng biệt điểm bảngLecturer: xếp hạng Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn 16 Boxplot • In SPSS: Graphs => Legacy dialogs => Boxplot Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn 17 Chart and graph Scatterplot Biểu đồ phân tán • A scatterplot is a graphic tool used to display the relationship between two quantitative variables Một biểu đồ phân tán công cụ đồ họa sử dụng để hiển thị mối quan hệ hai biến định lượng • A scatterplot consists of an X axis (the horizontal axis), a Y axis (the vertical axis), and a series of dots Một đồ thị phân tán bao gồm trục X (trục hoành), trục Y (trục dọc), loạt dấu chấm • Each dot on the scatterplot represents one observation from a data set Mỗi dấu chấm phân tán đại diện cho quan sát từ tập liệu Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn 18 Chart and graph Scatterplot • Scatterplots are used to analyze patterns in bivariate data Đồ thi phân tán sử dụng để phân tích mẫu liệu hai biến • These patterns are described in terms of linearity, slope, and strength Những mơ hình mơ tả theo tuyến tính, độ dốc, độ mạnh Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn 19 Scatter plot Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn 20 Compare distributions so sánh phân bố • Focus on four features: Tập trung vào bốn tính năng: – Center Trọng tâm – Spread Dàn trải – Shape Hình dáng – Unusual features đặc điểm bất thường Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn 21 Table • Alternatively, data can be presented in table form Ngoài ra, liệu trình bày dạng bảng – One-way table – Two-way table bảng chiều bảng hai chiều Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn 22 Table • A one-way table is the tabular equivalent of a bar chart Like a bar chart, a one-way table displays categorical data in the form of frequency counts and/or relative frequencies Một bảng chiều tương đương với bảng loại biểu đồ Giống biểu đồ thanh, bảng chiều hiển thị liệu phân loại theo hình thức đếm tần số / tần số tương đối – Frequency Tables: a one-way table shows frequency counts for a particular category of a categorical variable Bảng tần số : bảng chiều cho thấy số lượng tần suất cho thể loại đặc biệt biến phân loại – Relative Frequency Tables: a one-way table shows relative frequencies for particular categories of a categorical variable Bảng tần suất liên quan: bảng chiều cho thấy tần suất tương đối cho hạng mục cụ thể biến phân loại Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn 23 Table • A two-way table (also called a contingency table) is a useful tool for examining relationships between categorical variables The entries in the cells of a two-way table can be frequency counts or relative frequencies just like a one-way table Một bảng hai chiều (còn gọi bảng dự phịng) cơng cụ hữu ích để kiểm tra mối quan hệ biến phân loại Các mục bảng hai chiều đếm tần suất tần số tương đối giống bảng chiều Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn 24 Table Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn 25 Be careful, Simpson’s paradox Hãy cẩn thận, nghịch lý Simpson • Simpson's paradox (or the Yule-Simpson effect) is a paradox in which a correlation present in different groups is reversed when the groups are combined Nghịch lý Simpson (hoặc hiệu Yule-Simpson) nghịch lý tương quan diện nhóm khác đảo ngược nhóm kết hợp • It occurs when frequency data are hastily given causal interpretations Nó xảy tần số liệu vội vã đưa cách giải thích nhân • Simpson's Paradox disappears when causal relations are brought into consideration (Wikipedia) Nghịch lý Simpson biến mối quan hệ nhân đưa vào xem xét Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn 26 Be careful, Simpson’s paradox • Consider the situation of two contractors in the table below (Good quality/ number of contracts) Hãy xem xét tình hình hai nhà thầu bảng (chất lượng tốt / số lượng hợp đồng) • Who is better? (Long N.D 2010) Ai Contractor A Contractor B Civil 40/60 66.6% 5/8 62.5% Type of contract Industrial 13/15 86.7% 42/50 84% Lecturer: Le Hoai Long (Ph.D.) lehoailong@hcmut.edu.vn Total 53/75 70.7% 47/58 81% 27