CHƯƠNG III: VẤN ĐỀ ĐẶT RA VÀ KHUYẾN NGHỊ, GIẢI PHÁP QUẢN LÝ SẢN XUẤT SẢN PHẨM BÁO CHÍ DỮ LIỆU
3.2. Một số khuyến nghị
Tại sao phải quan tâm báo chí dữ liệu? Đây là câu hỏi nhằm nhấn mạnh tầm quan trọng của nó. Trong kỷ nguyên số hiện nay, với lƣợng thông tin khổng lồ trên Internet. Để chuyển tải lƣợng thông tin này vào các bài báo, cần có cách thức mới để chuyển tải thông tin. Và báo chí dữ liệu với sự kết
hợp của những thao tác thu thập, phân tích, sàng lọc và trực quan hoá những thông tin thu thập đƣợc sẽ giúp các nhà báo thực hiện điều này.
Kỷ nguyên số hiện nay đã điều kiện cho công chúng tiếp cận nguồn dữ liệu thô bằng khả năng liên kết với nền tảng dữ liệu lớn, giúp công chúng có thể kiểm chứng các giả thiết mà phóng viên đƣa ra trong tác phẩm báo chí dữ liệu. Độc giả cũng không bị ―góc nhìn‖ của nhà báo ảnh hưởng quá nhiều, họ có thể tự đƣa ra những phân tích, dự đoán của chính bản thân. Sự minh bạch thông tin này chính là công cụ chống lại tin giả (fake news). Với hàng trăm, hàng ngàn tin giả trên mạng xã hội, khi các nhà báo chƣa thể chuyển tải hết những tin thật đến độc giả, thì độc giả cần có tƣ duy phân tích và xử lý thông tin để tự phân biệt đƣợc đâu là tin thật, đâu là tin giả.
Trong bất kỳ hoàn cảnh nào, dữ liệu là chất liệu để các nhà báo sáng tạo ra các món ăn. Để có các siêu phẩm báo chí, cần một lƣợng lớn dữ liệu và những kỹ thuật công nghệ hiện đại. Các phóng viên, nhà báo phải biết sáng tạo nội dung trên nền tảng công nghệ dữ liệu. Nhấn mạnh tầm quan trọng của dữ liệu đối với cơ quan báo chí, TS. Trần Lệ Thuỳ - chuyên gia về báo chí dữ liệu cho biết: "Dữ liệu có thể là nguồn thu rất lớn cho các toà soạn báo, thực tế là nguồn thu cực lớn của các toà soạn trên thế giới, nhƣng mà ở Việt Nam chƣa có đơn vị làm đƣợc, chƣa thấy có toà soạn nào có chiến lƣợc coi dữ liệu là nguồn thu chính".
Từ những lý do trên, tác giả đƣa ra một số khuyến nghị sau:
3.2.1. Khuyến nghị về quy trình quản lý sản xuất sản phẩm báo chí dữ liệu Quy trình quản lý sản xuất sản phẩm báo chí dữ liệu của ba tòa soạn báo Vietnamplus, VnExpress, Zing có những nội dung cần cải thiện để có thể phát triển tốt hơn trong tương lai. Trong đó, việc phân rã nhỏ từng công đoạn và chuyên môn hóa cho từng nhân lực sẽ tạo ra một quy trình sản xuất sản phẩm báo chí dữ liệu tốt hơn, tiệm cận với quy trình các tòa soạn báo trên thế giới hiện nay đang áp dụng. Bên cạnh đó, cần tích cực ứng dụng công năng của trí tuệ nhân tạo vào từng công đoạn để có thể xử lý đƣợc những công việc
phải cần hàng trăm ngàn nhân lực thực tế, mất nhiều thời gian, nhiều phép tính toán phức tạp. Máy tính cần làm thay con người, con người có thể điều khiển và giám sát kết quả phía sau.
Đối với quy trình quản lý sản xuất sản phẩm báo chí dữ liệu, qua nghiên cứu mô hình nước ngoài của nhà báo Simon Rogers (tờ The Guardian), nhóm tác giả xây dựng nhƣ sau:
Hình 3.2.1.a: Quy trình sản xuất sản phẩm báo chí dữ liệu (Nguồn: PGS.TS.
Đỗ Thị Thu Hằng, Phí Hữu Tuấn(2020))
Các server, ổ cứng, USB, DVD
Sản phẩm đầu ra Sản phẩm đầu vào:
-Máy quay video: File video -Bàn trộn: File âm thanh -Mixer âm nhạc: File âm thanh -Microphone thu âm: File âm thanh
-Nhạc cụ điện tử: File âm thanh
-Máy ảnh số (Digital camera) : File ảnh, video
-Máy quét (scanner): File ảnh, PDF
-Máy tính workstation: File các loại
Dữ liệu thành phần:
Audio, Hiệu ứng…
Tập hợp dữ liệu
Dữ liệu thô
Trình diễn (Syndronication Presentaion) + Đóng gói
Dữ liệu lớn (Big Data) PV nhập dữ liệu
hoặc chuyên gia khai phá dữ liệu
Dữ liệu thô
…
Dữ liệu qua sơ
chế Dữ liệu
lớn (Big Data) Đồng bộ hoá
....
Sản phẩm theo ý người dùng: Đài
Truyền hình…
Sản phẩm theo ý người dùng: Khu
vực giải trí,…
Sản phẩm theo ý người dùng
Sản phẩm theo ý người dùng
...
Dữ liệu qua sơ chế Phân tích dữ
liệu lần 1
Phân tích dữ liệu lần 2
Mô tả quy trình:
Sản phẩm đầu vào là các hình ảnh, âm thanh, file,.. từ các máy quay video, bàn trộn, mixer âm nhạc, microphone thu âm, nhạc cụ điện tử, máy ảnh số (Digital camera), máy quét (scanner), máy tính workstation...
Khi tổ chức thực hiện, một nhà báo nhập dữ liệu vào đây, họ làm ra các dữ liệu thành phần của sản phẩm (có thể là một file audio hay một dòng hiệu ứng), máy tính bắt đầu công việc phân tích dữ liệu.
Sau quá trình phân tích và xử lý thô lần đầu, làm thành một dòng tin hay là một dòng dữ liệu nào đó, dữ liệu thô này được lưu trữ ở một kho dữ liệu hoặc Big Data.
Những người làm kỹ thuật công nghệ của toà soạn sẽ lưu tất cả dữ liệu này tại các server hay các hệ thống ổ cứng gắn ngoài, USB, đĩa CD, DVD ROM,...
Rất nhiều kiểu dữ liệu khác nhau rất nhiều dòng dữ liệu khác nhau. Họ quản lý nó ở các kho dữ liệu về chạy trên các hình nền tảng định sẵn
Sau đó dữ liệu này đƣợc tiếp tục phân tích để cho ra dòng sản phẩm mới. Sản phẩm đã qua sơ chế đƣợc đƣa vào quá trình đồng bộ hóa để đóng gói ra những dòng sản phẩm khác nhau.
Dựa trên những yêu cầu của người dùng, cơ quan báo chí phân tích thị trường và bán sản phẩm cho các đài truyền hình, cho các khu vực giải trí, khu vực biểu diễn... Với yêu cầu khác nhau, họ sẽ làm thành những sản phẩm nhau khác nhau dựa trên nền tảng của dữ liệu đã có sẵn. Họ sử dụng các thuật toán khác nhau về xử lý, sử dụng trí tuệ nhân tạo để thăm dò, phân tích xử lý yêu cầu của công chúng qua các mạng xã hội để biết được xu hướng công chúng là gì? Các sản phẩm báo chí khác nhau, đƣợc trình bày khác nhau, nhƣng có điểm chung là có nguồn gốc từ dữ liệu.
Về quy trình, có thể rút ra 3 bước chính là Tập hợp dữ liệu, phân tích dữ liệu và trình diễn dữ liệu Trong từng bước có thể do con người hoặc máy tính làm việc dưới sự điều khiển của con người.
Tập hợp dữ liệu Gồm 3 bước:
Tìm kiếm dữ liệu: Dữ liệu từ nguồn tài nguyên nào? Cấu trúc dữ liệu đó dạng gì (dạng excel spreetsheet, bản đồ,...). Dữ liệu có thể từ các cơ quan nhà nước, hoặc từ các nguồn uy tín trên Internet như Liên hợp quốc (UN), Quỹ tiền tệ quốc tế (IMF)... Đôi khi chúng ta phải mua từ các công ty chuyên cung cấp dữ liệu lớn.
Lấy dữ liệu: Dùng công cụ gì để lấy đƣợc dữ liệu đó.
Kiểm chứng dữ liệu: Kiểm chứng xem dữ liệu có chính xác hay không.
Lọc ra những ô dữ liệu có thông tin chƣa đƣợc kiểm chứng.
Phân tích dữ liệu
Khi đã có dữ liệu, nhà báo sẽ làm gì với nó, sẽ phân tích dữ liệu nhƣ thế nào?
Có 2 bước:
Mổ xẻ dữ liệu: Xem xét những dữ liệu cần dùng cho tác phẩm báo chí.
Gợi mở những câu chuyện dựa trên những dữ liệu quan trọng này.
Làm sạch dữ liệu: Loại bỏ những dữ liệu không cần thiết, những dữ liệu không thể kiểm chứng ra khỏi bảng.
Trình diễn dữ liệu
Dựa vào dữ liệu đã lọc, xác định loại hình đồ hoạ, biểu đồ, đồ hoạ tương tác,.. hay lập trình để có bài viết dạng trí tuệ nhân tạo,.. qua đó trình bày dữ liệu đến độc giả một cách trực quan nhất, dễ hiểu nhất, đẹp mắt.
Có 2 bước:
Trực quan hoá dữ liệu: Sử dụng các số liệu để làm thành các biểu đồ, đồ thị đồ hoạ, đồ hoạ tương tác...
Kể câu chuyện: Kết hợp các biểu đồ với nội dung text, hình ảnh, video đa phương tiện,... để làm thành bài báo hoàn chỉnh.
3.2.2. Khuyến nghị về kỹ thuật công nghệ và nhân lực
Để tòa soạn có thể phát triển báo chí dữ liệu, rất cần có chủ trương của đội ngũ lãnh đạo tòa soạn. Khi đội ngũ lãnh đạo đồng ý, việc cần tiếp theo đầu tư kỹ thuật công nghệ (theo từng bước phát triển của tòa soạn) và dần phát triển đƣợc đội ngũ nhân lực làm báo chí dữ liệu. Trong bối cảnh của cách mạng công nghiệp 4.0, vấn đề đầu tƣ khoa học công nghệ và phát triển nhân lực là hai vấn đề quan trọng nhất của mọi cơ quan. Quá trình sản xuất báo chí dữ liệu có những thao tác đòi hỏi sự hỗ trợ của máy tính cũng nhƣ các phần mềm thống kê, thiết kế và các phần mềm chuyên dụng về lập trình.
Về đội ngũ làm báo chí dữ liệu cần khoảng 5 người, họ là: chuyên gia khai phá dữ liệu (Data Mining), chuyên gia khoa học dữ liệu (Data Scientist), nhà báo, lập trình viên và người thiết kế đồ họa. Data Mining là người làm công việc đi khai phá dữ liệu ở khắp nơi, có thể tìm kiếm các loại tài liệu giấy tờ hay các tài liệu lưu trữ trên Internet. Nếu họ khai phá dữ liệu trên Internet, họ phải có kỹ năng của một chuyên gia mạng.
Khi có dữ liệu, Data Scientist - chuyên gia khoa học dữ liệu với tƣ duy toán học, kinh tế học, công nghệ... có nhiệm vụ phân tích dữ liệu một cách dễ hiểu nhất. Họ và nhà báo ngồi cùng nhau, bàn luận, thống nhất chọn hướng dữ liệu khả dĩ để vẽ ra bức tranh cụ thể, những nhân viên thiết kế đồ họa nghe và có nhiệm vụ hình ảnh hóa bức tranh đó (Quá trình trực quan hóa dữ liệu). Ngoài ra, nếu sản phẩm báo chí dữ liệu cần sự tương tác trực quan, cần có lập trình viên để biến chúng thành tương tác. Nhà báo là một mắt xích xuyên suốt ở các bước.
3.2.3. Khuyến nghị một số công cụ làm báo chí dữ liệu
Trong tương lai, các toà soạn báo tại Việt Nam hoàn toàn có thể phát triển báo chí dữ liệu trong toà soạn bằng cách đầu tƣ từng phần và có trọng điểm các máy tính, phần mềm phục vụ làm báo chí dữ liệu. Hiện nay đã có những phần mềm miễn phí trên Internet giúp phóng viên, nhà báo làm các sản phẩm báo chí dữ liệu đơn giản. Tuy nhiên để có những dự án báo chí dữ liệu phức tạp hơn, các toà soạn nên tuyển thêm các lập trình viên chuyên sâu,
các chuyên gia phân tích dữ liệu để họ có thể toàn tâm toàn ý hiện thực hoá các ý tưởng, đề tài của các nhà báo.
Tập hợp dữ liệu:
Người làm Data Mining có thể sử dụng các công cụ lấy dữ liệu trên Internet nhƣ Google Sheets, Web Scraper, IFTTT và lập trình Python để tìm kiếm và lấy dữ liệu.
Phân tích dữ liệu:
Có thể sử dụng các công cụ: 1) Google sheets: dùng bảng chốt Pivot (đối với bảng dữ liệu nhỏ); 2) Python Pandas: Giúp phân tích thống kê dữ liệu (đối với bảng dữ liệu lớn); 3) PSPP: Phân tích thống kê (đối với bảng dữ liệu lớn). 4) Công cụ phân tích tài liệu nhƣ DocumentCloud, Jigsaw.
Ngoài ra để làm sạch dữ liệu có thể sử dụng các công cụ: 1) OpenRefine (giúp xoá lỗi chính tả và điều chỉnh dữ liệu); 2) Google Sheet (sử dụng một số hàm để xử lý dữ liệu); 3) Data Wrangler.
Trực quan hoá dữ liệu
Hiện nay, có nhiều công cụ giúp tạo hình ảnh trực quan cho dữ liệu cho phép phóng viên và biên tập viên có trách nhiệm hơn với nội dung của chính họ và ít bị phụ thuộc vào những người thiết kế đồ họa trong toà soạn.
Để kể câu chuyện, có thể dùng 1) Website Atavist: Sử dụng một mẫu trong website này để trình bày câu chuyện; 2) Timeline.js: đường thời gian cho dòng tin tức; 3) Silk.co: tương tác trực quan
Đối với những bài báo cần bản đồ tương tác, có thể sử dụng các công cụ: Google Fusion, Tableau Public, QGIS, PostGIS, SpatiaLite.
Trong nhóm làm dự án báo chí dữ liệu, các lập trình viên cần biết ngôn ngữ lập trình như SQL, PHP, Perl, Python, Ruby. Người làm đồ họa cần biết sử dụng các phần mềm làm đồ họa tĩnh nhƣ Adobe Illustrator, Adobe Photoshop, lập trình Flash và HTML5 để tạo đồ họa tương tác.
Ngoài ra đối với nhà báo không biết lập trình, không biết đồ họa, có thể sử dụng các công cụ online để tạo các biểu đồ, đồ thị, đồ họa nhƣ: Visme:
sản xuất nội dung trực quan, tạo ra infographics chuyên nghiệp, các bài thuyết trình tương tác, banner, biểu đồ. Infogr.am: là công cụ tạo các loại biểu bảng tương tác với nhiều templates miễn phí. Có thể tạo pie charts, bar graphs, line và matrix graphs bằng cách tải thông tin ở dạng file Excel.
ChartsBin: Chuyên dành cho việc tạo charts và graphs. Dipity: Tạo interactive timelines dựa theo thời gian xảy ra sự kiện, gắn code sẵn lên website.