Chu kỳ của Big Data
Cũng giống các ứng dụng liên quan đến cơ sở dữ liệu khác, dự án big data cũng có chu kỳ phát triển của nó. 3Vs đóng vai trò quan trọng trong việc quyết định kiến trúc của dự án big data. Dự án big data cũng có các phase như data capturing, transforming, integrating, analyzing và building actionable reporting.
Các quá trình này trông gần như giống nhau, nhưng do bản chất của dữ liệu, kiến trúc thường là hoàn toàn khác nhau. Dưới đây là vài câu hỏi mà tất cả mọi người nên hỏi trước khi bắt đầu với kiến trúc big data.
Các câu hỏi đặt ra
Đây chỉ là những câu hỏi cơ bản, nhưng dựa trên nhu cầu của ứng dụng và kinh doanh, bạn điều chỉnh các câu hỏi. Các câu hỏi này trông khá đơn giản nhưng câu trả lời thì không đơn giản. Khi chúng ta đang nói về cài đặt dữ liệu lớn, có nhiều khía cạnh quan trọng khác phải xem xét khi quyết định kiến trúc.
- Tổng số database của bạn bao nhiêu thì là lớn?
- Yêu cầu của bạn về thời gian trong các báo cáo là gì – thời gian thực (real time), bán thời gian thực (semi real time) hay thời gian thường xuyên (frequent interval)?
- Tính sẵn sàng của dữ liệu quan trọng như thế nào và kế hoạch khôi phục thảm họa (disaster recovery) là gì?
- Kế hoạch bảo mật cho mạng và phần cứng dùng cho dữ liệu là gì?
- Nền tảng gì sẽ là động lực đằng sau dữ liệu?
Các thành phần của kiến trúc Big Data
Hoàn toàn không thể đưa ra giải pháp tối ưu nhất cho bất kỳ giải pháp big data nào trong 1 bài viết duy nhất, tuy nhiên, chúng ta có thể nói về các khối xây dựng cơ bản trong kiến trúc big data.
Hình ảnh trên cho chúng ta cái nhìn tổng quan tốt về cách các thành phần khác nhau trong kiến trúc big data tương tác lẫn nhau. Trong big data, các nguồn dữ liệu khác nhau là 1 phần của kiến trúc do đó extract, transform và integration là 1 trong những lớp quan trọng nhất của kiến trúc. Hầu hết các dữ liệu được lưu trữ trong quan hệ cũng như không quan hệ và các giải pháp data warehousing. Theo nhu cầu kinh doanh, các dữ liệu khác nhau (various) được xử lý và chuyển thành báo cáo trực quan với người dùng. Cũng giống như phần mềm, phần cứng cũng là phần quan trọng nhất của kiến trúc big data. Trong kiến trúc big data, hạ tầng phần cứng vô cùng quan trọng và cần phải cài đặt ngăn chặn lỗi xảy ra, đảm bảo high availability và DR.
NoSQL trong quản lý dữ liệu
NoSQL là 1 thuật ngữ rất nổi tiếng và nó thật sự có ý nghĩa là Not Relational SQL hay Not Only SQL. Điều này là do trong kiến trúc big data, dữ liệu ở định dạng bất kỳ. Để mang tất cả dữ liệu cùng nhau thì công nghệ mối quan hệ là không đủ, do các công cụ mới, kiến trúc và các thuật toán khác được phát minh sẽ nhận tất cả các loại dữ liệu. Những điều này được gọi chung là NoSQL.
Xem tổng quan ở đây
Last edited: Nov 8, 2014
0 nhận xét:
Đăng nhận xét