Xu hướng Big Data tại Mỹ và Trung Quốc trong năm 2022 – Tuan

2022 là một năm đầy sự bất ổn trên toàn thế giới ( về chính trị và kinh tế ) nhưng chúng ta lại chứng kiến sự phát triển vượt bật của công nghệ data. Thế hệ các công cụ data mới ( Tạm gọi là MDS – Modern Data Stack) tại Silicon Valley đã được phát triển và đón nhận rộng rãi trên toàn thế giới. Ngoài ra các công ty data-tech nổi lên gần đây cũng đã thu hút được rất nhiều nguồn vốn đầu từ vào OLAP engines và DataOps engine. Tất cả những yếu tố này thúc đẩy việc toàn cầu hóa công nghệ dữ liệu.

Sau đây mình xin review lại khái quát lịch sử của công nghệ data từ thời kì Hadoop Spark và data platform và so sánh nó với tình hình hiện tại để chúng ta có thể hiểu rõ hơn về xu hướng này.

Table of Contents

Giai đoạn đầu của big data tech (2005-2015)

Giai đoạn này big data được thống trị bởi Apache Hadoop, Spark, Oozie, các công nghệ này dần thay thế các công cụ data warehouse truyền thống như Teradata và Greenplum. Chúng nhanh chóng lấy được thị phần trên thị trường nhờ các đặc tính ưu việt như phân tán (distributed), hiệu suất cao (high-performance), miễn phí.

Tại thời điểm đó thì ở Trung Quốc, mà sớm nhất là Baidu, rồi đến Alibaba và Tencent đang có một nhảy vọt về kinh doanh trong mảng công nghệ. Thấy được sự phát triển vượt bật từ các công ty công nghệ Mỹ như Google, Amazon,… trong việc open-source và ứng dụng các công cụ big data vào kinh doanh. Các công ty công nghệ Trung Quốc cũng bắt đầu hành trình của họ trong big data. Các công ty công nghệ Trung Quốc ứng dụng (và đôi khi còn contribute và maintain hoặc fork) các công cụ open source này. Việc đầu tiên họ làm là tách biệt lớp ODS (Operational Data Storage) ra khỏi hệ thống big data ( không xử lí data trực tiếp từ ODS nữa ) và ứng dụng Hadoop và Spark để xử lí dữ liệu.

Mã nguồn mở cộng với khả năng chạy được trên phần cứng x86 (hay còn gọi là commodity hardware là các phần cứng phổ thông có thể mua được tại cửa hàng) đã giúp cho các công ty Trung Quốc tầm trung ứng dụng được big data ngay và lưu trữ được lượng dữ liệu lớn và dồi dào. Các bạn nên nhớ tại thời điểm này việc sử dụng server cá nhân (on-premise) để host và sử dụng là rất bình thường chứ cloud vẫn chưa phổ biến.

Các hệ thống bigdata tồn tại trước hadoop hoàn toàn không chạy được trên commodity hardware mà phải sắm máy chủ đắt tiền, có khả năng xử lí nhiều dữ liệu cùng 1 lúc ( chứ ko distributed như hadoop).

Xu hướng Big Data tại Mỹ và Trung Quốc trong năm 2022 — Chú voi con big data

Giai đoạn Big data trên mây( cloud-based big data platform) và Data Middle-Office (2010-2020)

Với sự phát triển vượt bật ở giai đoạn 2010-2020 của ngành Internet, khái niệm “data-driven” đã không còn xa lạ và được đón nhận ở hầu hết mọi nới. Đa số các công ty đều muốn áp dụng phương pháp này để quản lí và vận hành. Trong giai đoạn này có sự phân nhánh (tạm thời) ra thành 2 xu hướng giữa Trung Quốc và Mỹ trong xu hướng công nghệ.

Tại thời điểm này, số lượng dữ liệu tại Mỹ đang bùng nổ, kèm theo đó là sự bùng nổ về chi phí dành cho nhân công và vận hành cho các hệ thống vật lý (physical server) để lưu trữ dữ liệu. Các công ty như Amazon, Netflix, Linkedin,… và các công ty khác tại SV (Silicon Valley) đã quyết định chuyển dịch toàn bộ hệ thống và hạ tầng công nghệ lên đám mây để giải quyết vấn đề về bùng nổ chi phí và sự phức tạp trong vận hành. Dữ liệu lúc này không còn tồn tại trong Hadoop cluster như trước (và trong Hdfs) mà được lưu trữ trong các hệ thống Object storage như S3, GCS, Azure Blob,… Các loại hình lưu trữ này thuần túy không có sự kết nối với phần cứng dành cho tính toán ( trái ngược với hadoop là sử dụng phần cứng tại nơi lưu trữ ). Để có thể tính toán và xử lí được dữ liệu trên Object Storage, Amazon EMR và các hệ thống đơn thuần tính toán như Spark (without Hadoop) được sử dụng rộng rãi cùng với các tool schedule task ( như Airflow, luigi ). Điều này dẫn tới một thời kì mới mà việc tách biệt giữa computing và storage được coi là tiêu chuẩn ( Chỉ tốn chi phí lưu trữ nếu không cần tính toán hoặc ngược lại).

Với sự bùng nổ của điện toán đám mây dành cho số đông (như AWS, GC, Azure) chi phí cloud trung bình của các công ty ở mỹ đã chiếm 24% tổng chi phí IT của toàn công ty (số liệu năm 2020 từ McKinsey Report China Public Cloud: Big Challenges, Big Potential).

Trong lúc này tại Trung Quốc, tư duy data-driven cũng được đón nhận rộng rãi. Thế hệ công ty Internet tiếp theo tại Trung Quốc như Kuaishou, Toutiao, Meituan, và JD.com tiếp tục đón nhận và sử dụng các công cụ open source như ClickHouse, Apache Doris, Presto để rút ngắn khoảng cách giữa người dùng dữ liệu không chuyên (business users) và dữ liệu. Trước đây Hadoop và Spark đã tạo khoảng cách khá lớn cho việc tiếp cận dữ liệu của business users và dữ liệu tại công ty.

Tuy nhiên, sử dụng các công cụ open source vẫn chưa đủ vì lượng dữ liệu tại Trung Quốc đặc biệt lớn, cho nên các công cụ như Airflow/Azkaban không thể đáp ứng được quy mô hiện tại ở Trung Quốc. Điều này dẫn tới việc các công ty tại trung quốc phát triển các dự án nội bộ (và rất nhiều trong số này sau này được opensource ví dụ như Apache Kylin).

Như vậy các bạn đã có thể thấy có sự chia tách rõ rệt giữa 2 xu hướng giữa Mỹ và Trung Quốc. Các công ty Mỹ tập trung vào phát triển công nghệ data trên điện toán đám mây. Trong khi các công ty Trung Quốc tiếp tục ứng dụng các công nghệ open-source và phát triển các giải pháp dành riêng cho họ, giải quyết bài toán dữ liệu lớn ở mức độ của họ.

Giai đoạn 2015- Hiện nay

Sau 2020, xu hướng nhìn chung có sự hội tụ lại tại phương thức cloud-native. Các công ty Mỹ và Trung Quốc đều thấy được lợi ích của việc áp dụng phương thức cloud-native cho big data nên nhìn chung đã có sự tương đồng nhất định. Nhưng cách tiếp cận tính tới hiện tại vẫn có phần khác biệt.

Tại Silicon Valley, hiện tại số lượng công cụ để giải quyết các vẫn đề cho data vẫn gia tăng( người ta hay gọi chung là MDS – modern data stack). Làm phân mảnh và chuyên biệt hóa các dịch vụ điện toán đám mây thành các xu hướng khác nhau:

Từ IT-centric tới business-centric

No-code hoặc low-cost là một phương pháp tiếp cận giúp nhiều người có thể giải quyết vấn đề data mà không cần có kĩ năng lập trình. Điều này giúp việc tiếp cận tới data được phổ cập tới nhiều người.

Data team được tập trung vào việc phát triển dữ liệu hơn là phát triển hệ thống lưu trữ dữ liệu bằng cách sử dụng các công cụ cloud-native, hoặc các tool managed (được quản lí bởi nhà cung cấp) trên cloud. Mỗi quan tâm chính của data team là data và hệ thống xử lí data, chứ không phải hiệu suất hoạt động và tối ưu vận hành.

Ngoài ra cùng với các công cụ tự phục vụ data ( data self-service ), data team trở thành data-driven enablers ( người hỗ trợ người khác thực hành data ) hơn là điểm nghẽn cản trở ( không cần qua hệ thống ticket, không cần chờ đợi, v..v.. )

Từ giải pháp tổng thể tới một bộ các sản phẩm và giải pháp nhỏ

Vì được triển khai trên đám mây, chi phí được chi trả tách biệt giữa lưu trữ và tính toán, các công ty có thể tiết kiệm được rất nhiều chi phí nếu tách một giải pháp tổng thể ra rất nhiều giải pháp nhỏ. Các giải pháp nhỏ chỉ được sử dụng khi cần đến ( và cũng chỉ được tính tiền khi dùng ) điều này dẫn tới việc chi phí tổng thể cũng giảm.

Khác với phương pháp của Trung Quốc, tại Mỹ việc sử dụng nhiều sản phẩm và giải pháp nhỏ được chuyên biệt hóa phổ biến hơn. Điều này dẫn tới việc có thể giảm tính cồng kề của toàn hệ thống mà vẫn giữ được chất lượng đảm bảo.

DataOps/MLOps giúp analysts, DE và DS có thể phát triển hiệu quả hơn

DataOps/MLOps hiện tại có thể hỗ trợ analysts và DS sử dụng các phân tích (analysis) trước đây chỉ được dùng 1 lần ( lưu vào file hay csv ) thì nay có thể triển khai thành một phần của pipeline và trực tiếp phục vụ liên tục cho người dùng (doanh nghiệp hay cá nhân).

DataOps/MLOps giúp cho việc quản trị dữ liệu thành một phần thiết yếu của MDS

Việc ứng dụng một số công cụ như DBT, Fivetran, Airbyte, Airflow, SeaTunnel, Perfecto,… giúp cho việc triển khai hệ thống data nhanh hơn trước rất nhiều với ít chi phí cho việc quản lí hơn là sử dụng các giải pháp tổng thể.

Ở Trung Quốc, các công ty cũng chuyển dịch lên Cloud giống như Mỹ, tuy nhiên họ vẫn tập trung sử dụng các giải pháp open-source và tự triển khai dịch vụ của riêng họ trên cloud hơn là sử dụng các dịch vụ được quản lí bởi cloud-provider. Vẫn là cloud nhưng có phần sở hữu riêng nhiều hơn.

Xu hướng big data tại Trung Quốc và Mỹ

Sau khi review hơn 1 thập kỷ lịch sử về big data tại Trung Quốc và Mỹ, chúng ta có thể thấy một số xu hướng Big Data đang nổi lên như sau.

Cloud-native

Quản lí phần cứng là một chi phí cực kì khổng lồ, việc sử dụng phương thức cloud-native để phát triển hệ thống phần mềm là điều tất yếu, đặc biệt là trong big data.

Tự phục vụ (self-service) và dân chủ hóa dữ liệu (democratization)

Ngày càng nhiều các nhân viên trong các công ty muốn tiếp cận dữ liệu do các công ty muốn theo đuổi phương thức phát triển data-driven. Xu hướng tất yếu từ việc này chính là việc phát triển các hệ thống để nhân viên có thể tự phục vụ dữ liệu mà không cần chuyên gia phân tích ( hoặc ít ) rất quan trọng, đặc biệt là trong các công ty lớn.

Hệ sinh thái mã nguồn mở cho data ngày càng đa dạng

Không chỉ là “Hadoop” mà chúng ta có vô số cái tên được nhắc đến gần đây khi nói đến open source như DBT, Airbyte, Dagster, Preset,…

Các công ty này phát triển và duy trì các dự án open-source đồng thời cho thuê các phiên bản phần mềm được họ quản lí. Mỗi một công cụ riêng biệt đều giải quyết được các nhu cầu rất khác nhau của một công ty.

Trước đây các công cụ tổng thể luôn rất cồng kềnh và không đáp ứng được các tiêu chí nhanh và đơn giản. Các công cụ open source thì đang làm điều này trở nên dễ dàng hơn bao giờ hết.

Civilization: trước đây dashboard luôn là một ưu tiên cho quản lý và chủ doanh nghiệp, giờ đây đây là thứ phổ biến và dành cho tất cả mọi người trong công ty sau khi có các công cụ open source như superset
Start simple: không cần một hệ thống cồng kềnh (như airflow) để có thể quản lý data model với data lineage dạng DAG (Dag là gì thì đọc tại đây) mà bạn chỉ cần DBT
Fast iteration: chu kì ngắn, thường tại công ty mình đang làm các bạn chỉ mất 1 -> 2 ngày để có một dashboard đơn giản cho nhu cầu của mình
Cost effective: chi phí tối ưu do có sự rạch ròi trong việc sử dụng và lưu trữ ( chi phí lưu trữ rất rẻ hơn so với sử dụng )

Kết

Vậy là mình đã tóm gọn được một số xu hướng và tình hình chung trong việc phát triển các công nghệ liên quan tới data nói chung. Cảm ơn các bạn đã đón đọc.

Source:
Tham khảo và dịch lại từ nguồn