Bắt đầu với Bigdata như thế nào?

bigdata
apache-spark
apache-hadoop

#1

Trang cognitiveclass.ai là trang free hoàn toàn của IBM, các khóa học ở đây rất cơ bản. Mọi người có thể lấy certificate luôn nhé ( sẽ là 1 cái đính kèm vào CV)

1) Hiểu Bigdata:

Khóa học này giúp mình hiểu basic thế nào là bigdata, tại sao lại là xu hướng tất yếu

2) Làm quen với các framework Bigdata:

Khóa học này sẽ làm quen với các framework cơ bản như Hadoop, Spark.

3) Advanced Bigdata

Khóa học này sẽ hiểu rõ bản chất các thuật toán trong Bigdata ( Page ranking của Google là 1 ví dụ)

Khóa này cũng hoàn toàn free cả học và lấy chứng chỉ. Cuốn sách đi kèm khóa học là cuốn hay nhất mà mình đã từng đọc.


#2

muốn tập luyện tạo các clusters bằng hadoop rồi train model như thế nào ạ?


#3

Hadoop để lưu trữ dữ liệu thôi em. Train model là một khái niệm khác. Anh chư rõ ý em lắm.


#4

bạn dùng thư viện Mlib của Spark nha


#5

Cũng như trên bài viết thui bạn @Phuc_Coi:

  • Setup môi trường Big Data: Hadoop Cluster
  • Feed dữ liệu vào Cluster
  • Training model với các framework hỗ trợ (có thể sử dụng xgboost, spark mllib, v.v.), ngôn ngữ python, java, scala.

#6

Em có thể viết các model sử dụng mô hình mapreduce. Chạy trên hadoop cluster. Data thì e lưu trên hdfs là được. Hoặc bây giờ e có thể dùng spark. Data thì vẫn lưu trên hdfs


#7

Cảm ơn mọi người ạ! <3 <3


#8

một cách khác nữa bạn có thể dùng là sử dụng data từ các big data set trên mạng, có thể lên Google Dataset Search để tìm cũng khá hay. Sau đó bạn có thể vứt data lên AWS S3, sau đó dùng AWS Athena để query. Đây cũng là cách bạn vửa tiếp cận được sơ sơ các những thứ cơ bản của big data, vừa có thể query lấy dữ liệu để train model nào đó bạn cần.


#9

Trang cognitiveclass.ai cho lấy certificate miễn phí luôn hả anh?


#10
Summary

tất nhiên là có mất phí chứ bạn. :grin:

Earn badges

Earn badges for your portfolio

=> It’s free


#11

Miễn phí hoàn toàn em à!


#12

Hi Carlo,

Hiện tại mình làm về ETL và Warehousing, mình muốn phát triển thêm về hướng big data processing (spark, kafka,…). Bạn có thể recommend mình một số certificates / courses nào để nâng cao chuyên môn, và để có thể apply vào những vị trí như vậy không (vì thướng họ yêu cầu 5-10 năm kinh nghiêm cho những vị trí như vậy)

Thân