Big Data là gì

Big Data là việc tích hợp các dữ liệu với khối lượng lớn và đa dạng đến mức các ứng dụng xử lý dữ liệu truyền thống không thể xử lý được.

Big Data là tập hợp các tập dữ liệu có dung lượng rất lớn và phức tạp, vượt xa khả năng của các ứng dụng truyền thống có thể thu thập, hiển thị, quản lý và xử lý dữ liệu trong một thời gian hợp lý.

Kích thước dữ liệu liên tục thay đổi, bao nhiêu dữ liệu để được gọi là Big Data thì vẫn chưa được xác định.

Đặc trưng của Big Data:

Volume là dung lượng dữ liệu được tạo ra và lưu trữ. Kích thước của dữ liệu xác định giá trị và tiềm năng để có thể thực sự được gọi là Big Data hay không.

Variety là sự đa dạng của dữ liệu được thu thập từ nhiều nguồn khác nhau và có nhiều kiểu cấu trúc khác nhau.

Velocity là tốc độ tạo ra và xử lý dữ liệu.

Một số công nghê đặc biệt dành cho Big Data:

Hadoop là công nghệ liên quan chặt chẽ nhất với Big Data. Dự án Apache Hadoop phát triển phần mềm mã nguồn mở cho máy tính có khả năng mở rộng và phân tán.

Apache Spark là một khuôn mẫu tính toán cụm nguồn mở được dùng để làm công cụ xử lý Big Data trong Hadoop.

Spark đã trở thành một trong những ứng dụng xử lý Big Data quan trọng và có thể triển khai theo nhiều cách thức khác nhau.

Data lakes là các kho lưu trữ khối lượng dữ liệu rất lớn ở định dạng gốc cho đến khi người dùng cần dữ liệu.

Bài viết Big Data là gì được tổng hợp bởi Canhothemanor.org.

Tìm hiểu thêm:

Để lại một bình luận

0913.756.339