Đừng hỏi tại sao

Một phần của tài liệu stinfo_so_7-2013 (Trang 43 - 44)

P. UYÊN(theo Foreign Affairs)

Dữ liệu lớn sẽ giúp trả lời "cái gì" chứ khơng phải "tại sao", và thường chỉ cần vậy là đủ. thường chỉ cần vậy là đủ.

kém, việc xử lý khĩ khăn và mất nhiều thời gian, mẫu là vị cứu tinh. Việc lấy mẫu dựa trên quan điểm cho rằng trong biên độ sai số nhất định cĩ thể từ một nhĩm nhỏ (mẫu) suy ra điều gì đĩ của cả tập hợp lớn, miễn là mẫu được chọn ngẫu nhiên. Ví dụ, người ta thăm dị ngẫu nhiên vài trăm người trước cuộc bầu cử để dự đốn kết quả trên cả nước.

Cách này cho kết quả tốt với các vấn đề đơn giản, nhưng khơng thể áp dụng khi cần phân tích sâu hơn, ví dụ như ứng cử viên nào cĩ nhiều khả năng được phụ nữ độc thân dưới 30 tuổi bỏ phiếu bầu? Khi đĩ mẫu gần như vơ dụng vì cĩ thể chỉ cĩ vài người thỏa tiêu chí, quá ít để rút ra kết luận cĩ tính đại diện. Vấn đề được hĩa giải nếu số mẫu mở rộng bao trùm tất cả (thăm dị tất cả mọi người). Ví dụ này đặt ra một vấn đề khác của việc sử dụng một vài dữ liệu thay vì tất cả. Trước đây, khi thu

thập chỉ một ít dữ liệu, người ta thường phải quyết định ngay từ đầu thu thập cái gì và dùng như thế nào. Giờ đây, khi thu thập tất cả dữ liệu, chúng ta khơng cần phải biết trước. Tất nhiên, khơng phải lúc nào cũng cĩ thể thu thập được mọi dữ liệu, nhưng so ra việc này khả thi hơn việc “suy diễn” từ mẫu.

Tuy nhiên ở đây cĩ sự đánh đổi. Khi tăng quy mơ, chúng ta cĩ thể sẽ phải hy sinh sự tinh gọn của dữ liệu và chấp nhận một chút “lộn xộn”. Quan điểm này đi ngược lại cách người ta làm việc với dữ liệu hàng chục năm qua. Tuy nhiên, về mặt nào đĩ, nỗi ám ảnh về sự chính xác là cảm xúc giả tạo do mơi trường thơng tin hạn chế. Khi khơng cĩ nhiều dữ liệu, các nhà nghiên cứu phải cố đảm bảo những con số mà họ nhọc cơng thu thập được chính xác nhất cĩ thể. Giờ đây với vơ số dữ liệu chúng ta cĩ thể chấp nhận một chút sai số (miễn là tồn bộ dữ liệu khơng sai lệch), bù lại cĩ được

khả năng phân tích thấu đáo. Ví dụ trong dịch thuật. Cĩ

vẻ như máy tính hiển nhiên sẽ dịch tốt vì cĩ

khả năng lưu trữ nhiều thơng tin và tìm kiếm nhanh chĩng. Nhưng nếu chỉ tra từ điển rồi thay chữ, bản dịch sẽ rất tệ. Ngơn ngữ rất phức tạp. Google cĩ cách tiếp cận khác, khai thác nhiều dữ liệu hơn từ Internet “lộn xộn”: thu thập bản dịch từ nhiều trang web với mọi ngơn ngữ, kể cả các bản

‘scan’ từ dự án quét sách khổng lồ của hãng. Lượng tài liệu mà Google phân tích lên đến hàng tỉ. Kết quả là bản dịch của Google khá tốt, cĩ thể dịch đến 65 ngơn ngữ.

Một phần của tài liệu stinfo_so_7-2013 (Trang 43 - 44)

Tải bản đầy đủ (PDF)

(48 trang)