Big Data là gì?


#1

Giới thiệu về Big Data

Do sự phát triển của công nghệ, các thiết bị điện tử và các phương thức truyền thông mới như các mạng xã hội, lượng dữ liệu được sinh ra bởi con người tăng rất nhanh qua mỗi năm. Lượng dữ liệu mà con người tạo ra mỗi hai ngày năm 2011 tương đương với lượng dữ liệu được tạo từ trước cho tới năm 2003. Lượng dữ liệu được tạo ra trong 2 năm gần đây chiếm tới 90% lượng dữ liệu trên thế giới. Con số này đang tăng rất nhanh và nếu như chúng ta có thể xử lý được lượng dữ liệu này thì chúng sẽ trở nên rất có ích.

Cụm từ Big Data khó có thể được định nghĩa một cách chính xác nhưng ta có thể hiểu nó là:

  • Tập dữ liệu kích thước lớn (large datasets): ở đây được dùng với nghĩa là nó có kích thước lớn mà không thể được lưu trữ là xử lý trên những máy tính hay những kỹ thuật tính toán truyền thống.
  • Các chiến lược (strategies) và các công nghệ (technologies) tính toán được sử dụng để xử lý lượng dữ liệu kia.

Điều gì khiến cho Big Data là hệ thống khác biệt?

Yêu cầu (requirements) để làm việc với big data là giống với yêu cầu làm việc trên các dataset thông thường. Tuy nhiên, Big Data là massive scale nên nó yêu cầu quá trình đọc dữ liệu và xử lý dữ liệu với tốc độ cao thì mới có thể đạt yêu cầu với từng stage trong quá trình xử lý dữ liệu. Mục tiêu của đa số các hệ thống Big Data là c thể tìm được các insights và sự kết nối giữa lượng lớn dữ liệu, điều mà ta không thể làm được với các cách thức thông thường.

Big Data được mô tả bằng mô hình “3Vs”. Nó là 3 đặc trưng Volume, VelocityVariety làm cho nó khác với những hệ thống xử lý dữ liệu khác.

Volume

Quy mô tuyệt đối của thông tin được xử lý giúp định nghĩa hệ thống Big Data. Dataset này có thể có kích thước lớn hơn rất nhiều so với dataset thông thường, nó yêu cầu nhiều thought hơn ở các stage xử lý và lưu trữ dữ liệu. Thông thường, do yêu cầu của hệ thống vượt quá capacity của một máy tính nên nó đặt ra thách thức về tổng hợp (pooling), cấp phát (allocating), đặt tọa độ tài nguyên cho các nhóm máy tính. Các thuật toán quản lý cluster và chia nhỏ task thành các phần nhỏ trở nên rất quan trọng.

Velocity

Điều thứ hai làm Big Data khác với các hệ thống dữ liệu khác là nó yêu cầu nó yêu cầu tốc độ thông tin truyền trong hệ thống. Dữ liệu thường xuyên được chuyển giữa các source khác nhau trong hệ thống và cần phải được xử lý real time để thu được các insights và update cho hệ thống. Nó hướng mọi người tránh batch-oriented approach và liên quan nhiều tới hệ thống real-time streaming. Dữ liệu liên tục được thêm vào, chuyển đi, xử lý và phân tích cho kịp dòng chảy thông tin và lấy được những thông tin giá trị sớm nhất. Điều này cần hệ thống phải có khả năng tránh lỗi trong quá trình truyền dữ liệu.

Variety

Dữ liệu có thể được xử lý ở nhiều hệ thống ngoài như ứng dụng, các server logs, social media, API bên ngoài hay từ các thiết bị sensor. Big Data xử lý những dữ liệu có tiềm năng bất kể nó bắt nguồn từ đâu bằng cách đưa các thông tin vào một hệ thống đơn. Định dạng và kiểu dữ liệu cũng có ảnh hưởng khác lớn. Media như hình ảnh, video, audio thường được xử lý cùng với text, log, trong khi những dữ liệu kiểu truyền thống cần phải được gán nhãn, formated và tổ chức.

Big Data Use Cases

Product Development

Các công ty như Netflix sử dụng big data để dự đoán các yêu cầu của khách hàng. Họ xây dựng những models cho các sản phẩm và dịch vụ mới dựa trên các thuộc tính của các sản phẩm, dịch vụ từ trước sau đó tìm ra mối liên hệ giữa các thuộc tính và đưua ra những cải thiện.

Customer Experience

Ta thấy được tương lai cho việc trải nghiệm người dùng. Big Data cho phép chúng ta lấy được những thông tin từ social media, việc khách hàng ghé thăm web, call log và những nguồn dữ liệu khác có thể giúp cải thiện được trải nghiệm tương tác người dùng và tăng được nhiều các giá trị hơn.

Machine Learning

Machine Learning đang nổi lên rất mạnh hiện nay. Nguyên nhân là dữ liệu và đặc biệt là big data đang phát triển mạnh. Chúng ta có thể dạy cho máy bằng cách đưa nhiều dữ liệu để train một model.

Drive Innovation

Big Data có thể giúp ta biết được những mối liên quan giữa con người, các thực thể, các tổ chức và các quá trình và sau đó có thể lấy được những insights để có thể đưa ra những quyết định về tài chính, kế hoạch.

Big Data Challenges

Big Data mang tới nhiều các lợi ích nhưng nó cũng có những khó khăn.

  • Đầu tiên là lưu trữ. Big data là lượng dữ liệu rất lớn. Mặc dù công nghệ hiện nay đã phát triển ra những trung tâm lưu trữ data nhưng các tổ chức vẫn gặp nhiều khó khăn để có thể tìm ra cách hiệu quả nhất để lưu trữ dữ liệu.
  • Tiếp đến là việc làm sạch dữ liệu vì ban đầu, dữ liệu chỉ là dữ liệu thô cần được xử lý cho phù hợp để có thể tạo ra được các insights. Data scientists thường mất 50 tới 80% thời gian để chuẩn bị, tiền xử lý dữ liệu trước khi sử dụng nó.
  • Cuối cùng, công nghệ Big Data thay đổi rất nhanh. Trong nhiều năm, Apache Hadoop là công nghệ được sử dụng phổ biến để xử lý big data. Sau đó là sự xuất hiện của Apache Spark. Giờ đây, sự kết hợp của hai công nghệ đem lại hiệu quả tốt nhất cho quá trình làm việc với Big Data.

Nguồn:

http://www.mmds.org/

https://www.oracle.com/big-data/guide/what-is-big-data.html

https://www.digitalocean.com/community/tutorials/an-introduction-to-big-data-concepts-and-terminology


#2

Cảm ơn bạn. Những chia sẻ cơ bản rất hữu ích ạ