Thứ Ba, 26 tháng 1, 2016

Big Data #20 – Các tài nguyên tham khảo – Cách bắt đầu với Big Data?



Leave a comment
 
 
 
 
 
 
5 Votes


Quay trở lại với câu hỏi ban đầu khi tìm hiểu big data.
“I muốn học về big data. Tôi có thể học nó ở đâu?”
Đây thật sự là 1 câu hỏi lớn và có rất nhiều tài nguyên để tìm hiểu về big data và khó khăn thật sự là lựa chọn 1 tài nguyên để học. Do đó tôi liệt kê ra đây một số nguồn tài nguyên quan trọng có liên quan đến big data.
Học từ Pluralsight
Pluralsight là tổ chức dẫn đầu về đào tạo trực tuyến chất lượng cao cho các nhà phát triển. Nó có các khóa học về big data và tôi học về big data với sự trợ giúp của Pluralsight. Đây là 1 vài khóa học có liên quan trực tiếp đến big data.
Khuyến khích các bạn bắt đầu với khóa học video này vì đây là các nguyên tắc cơ bản để học big data.
Học từ Apache
Nguồn tài nguyên của Apache là điểm duy nhất các tài nguyên học tập được xác thực nhất. Nếu bạn muốn học nền tảng cơ bản và chuyên sâu về các khía cạnh của big data, tôi tin bạn phải hiểu các khái niệm khác nhau trong thư viện của Apache. Tôi rất ấn tượng với tài liệu hướng dẫn và cá nhân tôi tham khảo nó mỗi ngày khi làm việc với big data. Tôi rất khuyến khích bạn đánh dấu các liên kết sau đây để học về big data.
  • Hadoop – Dự án Apache Hadoop phát triển phần mềm nguồn mở cho tính toán phân tán đáng tin cậy và khả năng mở rộng.
  • Ambari: Một công cụ nền web để quản lý, giám sát Apache Hadoop cluster gồm hỗ trợ cho Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, Zookeeper, Oozie, Pig, và Sqoop. Ambari cũng cung cấp dashboard để xem sức khỏe của cluster như bản đồ nhiệt và khả năng xem các ứng dụng MapReduce, Pig, và Hive trực quan cùng với các tính năng chuẩn đoán các đặc tính hiệu suất trong giao diện thân thiện.
  • Avro: Một hệ thống đồng bộ dữ liệu.
  • Cassandra: CSDL multi-master khả chuyển, tính sẵn sàng cao.
  • Chukwa: Một hệ thống thu thập dữ liệu để quản lý các hệ thống phân tán lớn.
  • HBase: Một CSDL phân tán, khả chuyển hỗ trợ dữ liệu có cấu trúc cho các bảng lớn.
  • Hive: Một hạ tầng kho dữ liệu (data warehouse) cung cấp tổng hợp dữ liệu và truy vấn ad hoc.
  • Mahout: Một thư viện khai thác dữ liệu (data mining) và máy học (machine learning) khả chuyển.
  • Pig: Một ngôn ngữ luồn dữ liệu (data-flow) cấp cao và khung thực thi cho tính toán song song.
  • Zookeeper: Một dịch vụ phối hợp hiệu suất cao cho các ứng dụng phân tán.
Học từ các nhà phân phối
Một trong những vấn đề lớn nhất khi học big data là tạo môi trường. Mỗi nhà phân phối big data có môi trường khác nhau và có nhiều thứ cần để tạo nên nền tảng big data. Nhiều người không bắt đầu big data vì họ e ngại các tài nguyên cần thiết để tạo môi trường. Hortonworks đã tạo môi trường học tập tuyệt vời. Họ tạo Sandbox với mọi thứ 1 người cần để học big data và cũng cung cấp các bài tự học rất tốt kèm theo. Sandbox đi kèm với hàng ta các bài hướng dẫn thực hành tự học hướng dẫn bạn cơ bản về Hadoop, chứa Hortonworks Data Platform.
Tôi nghĩ Hortonworks rất tuyệt vời khi xây dựng Sandbox và Tutorial.
Học từ sách
Có vài quyển sách tốt có thể tham khảo để học về big data.
Nếu tìm kiếm trên Amazon chắc có hàng triệu cuốn sách nhưng tôi nghĩ 3 cuốn trên là cần thiết. Khi đã đọc xong 3 cuốn sách trên, bạn sẽ có một ý tưởng rõ ràng về các bước tiếp theo nên làm trong loạt bài này là gì. Bạn có đủ khả năng để đưa ra quyết định đúng đắn cho mình.

0 nhận xét: