NGÀNH CNTT TUYỂN SINH NHIỀU CHỈ TIÊU NGÀNH CNTT, CNTT VIỆT NHẬT VÀ KHOA HỌC DỮ LIỆU

Dữ liệu lớn vs dữ liệu nhỏ

on .

Câu hỏi này rất “đúng chất nghiên cứu” 

Dữ liệu nhỏ (small data) không hề thua kém dữ liệu lớn; Ngược lại, trong nhiều bài toán nó còn vượt trội rõ rệt. Ta phân tích theo bản chất bài toán, không theo “mốt big data”.

1. Khi tri thức quan trọng hơn số lượng

Bài toán dựa trên cấu trúc – quy luật – nguyên nhân
Chẩn đoán y khoa chuyên sâu
Cơ học, vật lý, hóa học, sinh học hệ thống
Kinh tế học lý thuyết, tài chính định lượng
 
=> Small data + mô hình đúng > Big data + mô hình mù
 
Ví dụ
100 ca bệnh có gán nhãn cực chuẩn bởi chuyên gia > 1 triệu hồ sơ bệnh án nhiễu
Mô hình sinh lý học tim mạch dựa trên phương trình > ML thuần từ big data

2. Khi dữ liệu hiếm hoặc không thể thu thập nhiều

Các hiện tượng hiếm (rare events): Tai nạn hạt nhân, bệnh hiếm, gian lận tinh vi, sự cố kỹ thuật nghiêm trọng
 
Big data không tồn tại, nên:
Small data + Bayesian
Small data + causal inference
Small data + expert knowledge
 
=> là con đường duy nhất khả thi

3. Khi mỗi mẫu rất đắt

Dữ liệu chi phí cao:  Thí nghiệm y sinh, thử nghiệm lâm sàng, thử nghiệm vật liệu mới, dữ liệu vệ tinh độ phân giải cao
 
Ở đây:
50 mẫu có kiểm soát tốt > 500.000 mẫu thu thập đại trà
 
=> Thiết kế thí nghiệm (DoE) + small data là tối ưu

4. Khi cần giải thích – minh bạch – trách nhiệm

Bài toán cần explainability: Y tế, Pháp lý, Chính sách công, Tài chính – ngân hàng
 
Small data cho phép:
Mô hình tuyến tính
Mô hình nhân quả
Luật quyết định rõ ràng
 
Big data + deep learning: Dự đoán tốt nhưng không giải thích được
 
=> Trong nhiều lĩnh vực, không giải thích = không được dùng

5. Khi môi trường thay đổi nhanh

Concept drift cao: Thị trường tài chính, an ninh mạng, hành vi con người
 
Big data quá khứ:
+ Dễ lạc hậu
+ Dễ overfit lịch sử
 
Small data mới – đúng bối cảnh:
+ Phản ứng nhanh hơn
+ Dễ cập nhật mô hình
 

6. Khi tri thức chuyên gia đóng vai trò trung tâm

Human-in-the-loop
+ Chẩn đoán bác sĩ
+ Phân tích tình báo
+ Đánh giá rủi ro chiến lược
 
Small data:
+ Dễ kết hợp với hiểu biết con người
+ Dễ kiểm soát sai lệch
 
Big data:
Có xu hướng “lấn át” tư duy chuyên gia
 

7. Khi bài toán mang tính nhân quả, không chỉ tương quan

Big data rất giỏi:
“Cái gì thường đi cùng cái gì”
Small data + thiết kế tốt:
“Cái gì gây ra cái gì”
 
Các lĩnh vực:
+ Y học cá thể hóa
+ Chính sách xã hội
+ Kinh tế phát triển
+ Giáo dục
 

8. Bảng tổng hợp nhanh

Tiêu chí Small data thắng:
+ Dữ liệu hiếm 
+ Mẫu đắt 
+ Cần giải thích 
+ Dựa trên lý thuyết 
+ Nhân quả 
+ Thay đổi nhanh 
+ Kiểm soát chất lượng 
 
Big data thắng khi:
+ Hành vi phổ biến
+ Tín hiệu yếu nhưng lặp lại nhiều
+ Không cần giải thích sâu (quảng cáo, gợi ý, nhận diện ảnh)
 

9. kết luận (rất quan trọng)

Big data mạnh ở “thống kê”,
Small data mạnh ở “trí tuệ”.
Trong nghiên cứu nghiêm túc (đặc biệt y – khoa học tự nhiên – chính sách),
small data mới là “đẳng cấp cao”, còn big data chỉ là công cụ khuếch đại.