câu hỏi thường gặp khi phỏng vấn×data analyst×phỏng vấn data analyst×câu hỏi phỏng vấn×nghiên cứu dữ liệu×phân tích dữ liệu×Từ khóa10 câu hỏi thường gặp khi phỏng vấnnhững câu hỏi thường gặp khi phỏng vấn ngân hàngnhững câu hỏi thường gặp khi phỏng vấn visa mỹnhững câu hỏi thường gặp khi phỏng vấn tiếng anhnhững câu hỏi thường gặp khi phỏng vấn kế toánnhững câu hỏi thường gặp khi phỏng vấn xin việcnhững câu hỏi thường gặp khi phỏng vấn kết hônnhững câu hỏi thường gặp khi phỏng vấn học bổngnhững câu hỏi thường gặp khi phỏng vấn lễ tân
Trang 1NHỮNG CÂU HỎI THƯỜNG GẶP KHI PHỎNG VẤN DATA ANALYST
Trong bài viết, Morning Japan đã chia sẻ về yêu cầu ngành Data analytics cũng như cơ hội việc làm và chế độ đãi ngộ Vậy, khi phỏng vấn các nhà tuyển dụng thường sẽ hỏi những câu hỏi chuyên môn như thế nào? Dưới đây Morning Japan xin chia sẻ 33 câu hỏi thường gặp nhất khi phỏng vấn Data analyst của các nhà tuyển dụng trong ngành nói chung và nhà tuyển dụng Nhật Bản nói riêng
1 Trách nhiệm của Data Analyst là gì?
Trách nhiệm của một Data Analyst bao gồm
- Hỗ trợ cung cấp tất cả dữ liệu phân tích và phối hợp làm việc với khách hàng và nhân viên
- Giải quyết các vấn đề liên quan tới kinh doanh cho khách hàng và thực hiện kiểm tra dữ liệu
- Phân tích kết quả và giải thích số liệu qua việc sử dụng các kỹ thuật thống kê và cung cấp báo cáo liên tục
- Ưu tiên các nhu cầu trong kinh doanh và làm việc cẩn thận với các nhu cầu quản lý và thông tin
- Xác định quy trình hoặc các lĩnh vực mới để có cơ hội cải thiện
- Phân tích, xác định và giải thích các xu hướng hoặc các mẫu trong các bộ dữ liệu phức tạp
- Thu được thông tin từ nguồn thông tin sơ cấp hoặc thứ cấp và duy trì cơ sở dữ liệu/ hệ thống dữ liệu
- Lọc và “dọn” dữ diêu, đánh giá báo cáo
- Xác định các chỉ số hoạt động để tìm và sửa các vấn đề về code
- Bảo mật cơ sở dữ liệu bằng cách phát triển hệ thống truy cập thông qua xác dịnh mức truy cập của người dùng
2 Yêu cầu để trở thành Data Analyst là gì?
Để trở thành một Data Analyst, bạn cần
- Kiến thức chắc về các gói báo cáo ( lĩnh vực kinh doanh), ngôn ngữ lập trình (XML, Javascrip, or ETL frameworks), cơ sở dữ liệu (SQL, SQLite, etc )
- Khả năng phân tích, tổ chức, thu thập và phổ biến các dữ liệu lớn với độ chính xác cao
- Kiến thức về kĩ thuật như thiết kế cơ sở dữ liệu, mô hình dữ liệu, khai thác dữ liệu và các
kỹ năng phân đoạn
- Kiến thức về thông kế để phân tích các tập dữ liệu lớn (SAS, Excel, SPSS, etc…)
Trang 23 Các bước khác nhau trong một dự án phân tích là gì?
Các bước trong một dự án phân tích bao gồm
- Định nghĩa vấn đề
- Thăm dò dữ liệu
- Chuẩn bị dữ liệu
- Mô phỏng
- Xác nhận dữ liệu
- Thực hiện và theo dõi
4 Làm sạch dữ liệu là gì?
Dọn dẹp dữ liệu cũng được gọi là làm sạch dữ liệu, đề cập đến việc xác định và loại bỏ các lỗi và sự không nhất quán từ dữ liệu nhằm nâng cao chất lượng dữ liệu
5 Liệt kê ra một số phương pháp hay nhất để làm sạch dữ liệu?
Một số phương pháp hay nhất để làm sạch dữ liệu bao gồm,
- Sắp xếp dữ liệu theo các thuộc tính khác nhau
- Đối với các tập dữ liệu lớn, hãy làm sạch từng bước và cải thiện dữ liệu với từng bước cho đến khi bạn đạt được chất lượng dữ liệu tốt
- Đối với các tập dữ liệu lớn, chia chúng thành dữ liệu nhỏ Làm việc với ít dữ liệu sẽ tăng tốc độ của bạn
- Để xử lý công việc làm sạch thông thường, tạo một tập hợp các chức năng tiện ích / công cụ / tập lệnh Nó có thể bao gồm, sửa đổi các giá trị dựa trên tệp tin CSV hoặc
cơ sở dữ liệu SQL hoặc, tìm kiếm và thay thế regex, tẩy hết các giá trị không khớp với regex
- Nếu bạn có vấn đề về sự sạch sẽ dữ liệu, hãy sắp xếp chúng theo tần số ước tính và bắt đầu với những vấn đề phổ biến nhất
- Phân tích số liệu thống kê tóm tắt cho mỗi cột (độ lệch chuẩn, trung bình, số lượng các giá trị bị thiếu
- Theo dõi mọi hoạt động làm sạch mỗi ngày, từ đó bạn có thể sửa lại các thay đổi hoặc loại bỏ hoạt động nếu cần
6 Giải thích hồi quy logistic.
Hồi quy logistic là một phương pháp thống kê để kiểm tra một tập dữ liệu trong đó có một hoặc nhiều biến độc lập xác định kết quả
7 Danh sách một số công cụ tốt nhất có thể hữu ích cho việc phân tích dữ liệu?
- Tableau
Trang 3- RapidMiner
- OpenRefine
- KNIME
- Toán tử Tìm kiếm của Google
- Solver
- NodeXL
- Wolfram Alpha
- Bảng Google Fusion
8 Sự khác nhau giữa khai thách dữ liệu và lập hồ sơ dữ liệu
Lập hồ sơ dữ liệu: tập trung vào việc phân tích các thuộc tính cá nhân Nó cung cấp thông tin
về các thuộc tính khác nhau như phạm vi giá trị, giá trị rời rạc và tần số của chúng, sự xuất hiện của giá trị null, loại dữ liệu, chiều dài, vv
Khai thác dữ liệu: Nó tập trung vào phân tích cụm, phát hiện các bản ghi bất thường, phụ thuộc, chuỗi phát hiện, quan hệ duy trì giữa các thuộc tính, v.v
9 Liệt kê ra một số vấn đề thường gặp của nhà phân tích dữ liệu?
Một số vấn đề thường gặp của nhà phân tích dữ liệu là
- Lỗi chính tả phổ biến
- Mục trùng lặp
- Giá trị bị mất
- Giá trị bất hợp pháp
- Thay đổi giá trị đại diện
- Xác định dữ liệu chồng chéo
10 Tên của khuôn khổ được phát triển bởi Apache để xử lý bộ dữ liệu lớn cho một ứng dụng trong một môi trường điện toán phân tán?
Hadoop và MapReduce là khuôn khổ lập trình được phát triển bởi Apache để xử lý bộ dữ liệu lớn cho một ứng dụng trong một môi trường điện toán phân tán
11 Những mô hình bị thiếu thường thấy là gì?
Các mô hình bị thiếu thường được thấy là
- Thiếu hoàn toàn ngẫu nhiên
- Thiếu ngẫu nhiên
- Thiếu phụ thuộc vào giá trị còn thiếu của chúng
Trang 4- Thiếu phụ thuộc vào biến đầu vào không quan sát được
12 Giải thích phương pháp tính KNN là gì?
Trong tính KNN, các giá trị thuộc tính bị thiếu được tính bằng cách sử dụng các giá trị thuộc tính tương tự nhất với thuộc tính có các giá trị bị thiếu Bằng cách sử dụng một hàm khoảng cách, sự tương tự của hai thuộc tính được xác định
13 Các phương pháp xác nhận dữ liệu được sử dụng bởi nhà phân tích dữ liệu là gì?
Thông thường, các phương pháp được sử dụng bởi nhà phân tích dữ liệu để xác nhận dữ liệu
là
- Kiểm tra dữ liệu
- Xác minh dữ liệu
14 Những gì nên làm với dữ liệu nghi ngờ hoặc mất tích?
- Chuẩn bị một báo cáo cung cấp thông tin của tất cả các dữ liệu nghi ngờ Nó sẽ cung cấp thông tin như các tiêu chuẩn xác nhận nó không thành công, ngày và thời gian xảy ra
- Nhân viên có kinh nghiệm nên kiểm tra dữ liệu đáng ngờ để xác định tính chấp nhận của chúng
- Dữ liệu không hợp lệ phải được chuyển nhượng và thay thế bằng các code hợp lệ
- Để làm việc với dữ liệu bị thiếu, hãy sử dụng chiến lược phân tích tốt nhất như phương pháp xóa, phương pháp tính đơn, phương pháp dựa trên mô hình, v.v
15 Làm thế nào để giải quyết các vấn đề đa nguồn?
Để giải quyết các vấn đề đa nguồn, ta cần
- Tái cơ cấu các lược đồ để hoàn thành một lược đồ tích hợp
- Xác định các bản ghi tương tự và hợp nhất chúng vào một bản ghi duy nhất chứa tất
cả các thuộc tính có liên quan mà không có sự thừa
16 Giải thích một Outlier là gì?
Outlier là một thuật ngữ được sử dụng phổ biến bởi các nhà phân tích đề cập đến một giá trị xuất hiện xa và tách rời khỏi một mẫu tổng thể trong một mẫu Có hai loại Outliers
- Đơn giản
- Đa biến
Trang 517 Giải thích thuật Clustering Phân cấp bậc là gì?
Thuật toán phân cụm theo bậc (Hierarchical clustering algorithm) kết hợp và phân chia các nhóm hiện có, tạo ra một cấu trúc phân cấp thể hiện thứ tự mà các nhóm được chia hoặc hợp nhất
18 Giải thích Thuật toán K-mean là gì?
K-mean là một phương pháp phân chia nổi tiếng Các đối tượng được phân loại thuộc một trong các nhóm K, k đã được chọn trước
Trong thuật toán K-mean,
- Các cụm đang có hình cầu: các điểm dữ liệu trong một cụm được tập trung quanh cụm đó
- Sự khác biệt / sự lan rộng của các cụm giống nhau: Mỗi điểm dữ liệu thuộc về cụm gần nhất
19 Các kỹ năng chính cần thiết cho Nhà phân tích dữ liệu là gì?
Nhà khoa học dữ liệu phải có các kỹ năng sau
Kiến thức cơ sở dữ liệu
- Quản lý cơ sở dữ liệu
- Trộn dữ liệu
- Truy vấn
- Thao tác dữ liệu
Tiên đoán phân tích
- Thống kê mô tả cơ bản
- Mô phỏng dự đoán
- Phân tích nâng cao
Kiến thức về dữ liệu
- Phân tích dữ liệu lớn
- Phân tích dữ liệu phi cấu trúc
- Học máy
Kỹ năng trình bày
- Hình dung dữ liệu
- Bài thuyết trình Insight
- Thiết kế báo cáo
Trang 620 Giải thích về lọc cộng tác là gì?
Lọc cộng tác là một thuật toán đơn giản để tạo ra một hệ thống khuyến nghị dựa trên dữ liệu hành vi người dùng Các thành phần quan trọng nhất của bộ lọc cộng tác là người dùng- chuyên mục-sở thích
Ví dụ về lọc cộng tác là khi bạn thấy một dòng như "được đề xuất cho bạn" trên các trang web mua sắm trực tuyến xuất hiện dựa trên lịch sử duyệt web của bạn
21 Giải thích những công cụ được sử dụng trong dữ liệu lớn là gì?
Công cụ được sử dụng trong dữ liệu lớn bao gồm
- Hadoop
- Hive
- Flume
- Mahout
- Sqoop
22 Giải thích KPI, thiết kế thí nghiệm và quy tắc 80/20 là gì?
KPI : Là viết tắt của Chỉ số Hoạt động chính, đó là chỉ số bao gồm sự kết hợp của bảng tính,
báo cáo hoặc biểu đồ về quy trình kinh doanh
Thiết kế các thí nghiệm : Đây là quá trình ban đầu được sử dụng để chia dữ liệu của bạn,
lấy mẫu và thiết lập một dữ liệu để phân tích thống kê
Quy tắc 80/20 : Có nghĩa là 80% thu nhập của bạn đến từ 20% khách hàng của bạn
23 Giải thích về Map reduce là gì?
Map-reduce là một khuôn khổ để xử lý bộ dữ liệu lớn, tách chúng thành các tập con, xử lý mỗi tập hợp con trên một máy chủ khác nhau và sau đó kết hợp các kết quả thu được
24 Giải thích Clustering là gì? Các thuộc tính cho các thuật toán phân cụm là gì?
Clustering là một phương pháp phân loại được áp dụng cho dữ liệu Thuật toán phân cụm chia một tập dữ liệu thành các nhóm tự nhiên hoặc các nhóm tự nhiên
Thuộc tính cho thuật toán phân cụm là
- Phân cấp hoặc bằng phẳng
- Lặp lại
- Cứng và mềm
- Phân biệt
Trang 725 Một số phương pháp thống kê hữu ích cho các nhà phân tích dữ liệu là gì?
Các phương pháp thống kê hữu ích cho các nhà khoa học dữ liệu là
- Phương pháp Bayesian
- Chu trình Markov
- Các quy trình không gian và cụm
- Thống kê xếp hạng, phần trăm, phát hiện bên ngoài
- Kỹ thuật phỏng vấn
- Thuật toán đơn giản
- Tối ưu hóa toán học
26 Phân tích chuỗi thời gian là gì?
Phân tích chuỗi thời gian có thể được thực hiện trong hai lĩnh vực, miền tần số và miền thời gian Trong phân tích chuỗi thời gian, đầu ra của một quá trình cụ thể có thể được dự báo bằng cách phân tích các dữ liệu trước đó với sự trợ giúp của các phương pháp khác nhau như làm mờ mũ, phương pháp hồi quy tuyến tính, vv
27 Giải thích về phân tích correlogram là gì?
Một phân tích correlogram là một dạng phổ biến của phân tích không gian địa lý Nó bao gồm một loạt các hệ số tự tương quan tính toán được tính cho một mối quan hệ không gian khác nhau Nó có thể được sử dụng để xây dựng một correlogram cho dữ liệu dựa trên khoảng cách, khi dữ liệu thô được biểu diễn bằng khoảng cách chứ không phải là giá trị tại các điểm riêng lẻ
28 Bảng băm là gì?
Trong tính toán, một bảng băm là một bản đồ của các phím giá trị Nó là một cấu trúc dữ liệu được sử dụng để thực hiện một mảng kết hợp Nó sử dụng một hàm băm để tính một chỉ mục vào các khe, từ đó có thể lấy giá trị mong muốn
29 Va chạm bảng băm là gì? Làm thế nào là nó tránh được?
Một vụ va chạm bảng băm sẽ xảy ra khi hai phím khác nhau băm với cùng một giá trị Hai
dữ liệu không thể được lưu trữ trong cùng một khe trong mảng
Để tránh va chạm bảng băm có rất nhiều kỹ thuật, ở đây chúng tôi liệt kê ra hai cách
- Tách riêng : Nó sử dụng cấu trúc dữ liệu để lưu nhiều mục băm cho cùng một khe
- Mở địa chỉ : Nó tìm kiếm các khe khác sử dụng chức năng thứ hai và lưu trữ mục
trong khe rỗng đầu tiên được tìm thấy
Trang 830 Giải thích điều gì là sự thay thế? Liệt kê ra các loại kỹ thuật thay thế khác nhau?
Trong quá trình thay thế, chúng tôi thay thế dữ liệu bị thiếu bằng các giá trị được thay
thế Các loại kỹ thuật gắn kết bao gồm
Thay thế đơn
- Thay thế Hot-deck: Một giá trị bị thiếu được tính từ một bản ghi ngẫu nhiên được lựa chọn ngẫu nhiên bằng sự trợ giúp của thẻ punch
- Thay thế cold deck: Hoạt động giống như thay thế Hot deck, nhưng nó nâng cao hơn
và chọn các donors từ bộ dữ liệu khác
- Thay thế trung bình: Nó liên quan đến việc thay thế giá trị còn thiếu bằng giá trị trung bình của biến đó cho tất cả các trường hợp khác
- Thay thế hồi quy: Nó bao gồm việc thay thế giá trị còn thiếu bằng các giá trị dự đoán của một biến dựa trên các biến khác
- Stochastic hồi quy: Nó cũng giống như thay thế hồi quy, nhưng nó cho biết thêm sự chênh lệch hồi quy trung bình với thay thế hồi quy
Thay thế lặp
Không giống như thay thế đơn, thay thế lặp ước tính các giá trị nhiều lần
31 Phương pháp thay thê nào thuận lợi hơn?
Mặc dù thay thế đơn được sử dụng rộng rãi, nó không phản ánh sự không chắc chắn được tạo
ra bởi dữ liệu bị mất một cách ngẫu nhiên Vì vậy, thay thế lặp là thuận lợi hơn thay thế đơn trong trường hợp dữ liệu bị mất tại ngẫu nhiên
32 Giải thích N-gram là gì?
N-gram:
Một n-gram là một dãy liên tiếp của n mục từ một chuỗi văn bản hay một bài phát biểu nhất định Nó là một kiểu mô hình ngôn ngữ xác suất để dự đoán mục tiếp theo theo thứ tự như dưới dạng (n-1)
33 Các tiêu chí cho một mô hình dữ liệu tốt là gì?
Các tiêu chí cho một mô hình dữ liệu tốt bao gồm
- Có thể dễ dàng tiêu thụ
- Thay đổi dữ liệu lớn trong một mô hình tốt nên được mở rộng
- Cung cấp hiệu suất dự đoán được
- Một mô hình tốt có thể thích ứng với những thay đổi trong yêu cầu