Các bạn HR khi tuyển dụng nên chú ý tới các thuật ngữ dưới đây khi tuyển dụng nhân sự liên quan đến data.
Table of Contents
Về DB/ DW
- RDBMS: Relational Database Management System -> Hệ thống quản lí dữ liệu có liên hệ, thường thì đây là nơi mà mọi người sẽ dùng SQL. RDBMS ở đây đang nói đến: MySQL , PostgreSQL, Oracle,…
- Data Warehouse: Hãy hiểu nó giống như RDBMS nhưng to hơn và quy củ hơn. Ví dụ: BigQuery, Snowflake, Redshift,….
- SQL: Ngôn ngữ để lấy dữ liệu, tuy nhiên hãy hiểu rằng mỗi RDBMS lại có một loại SQL khác nhau, nên SQL phải luôn đi kèm 1 loại RDBMS
Các ngôn ngữ lập trình thường gặp trong ngành data
- Python: Có thể làm được mọi thứ từ data science tới data engineering tới data analyst, khi có requirement phải biết Python, bạn nên biết chắc requirement Python này là gì, làm cụ thể công việc gì, vì ứng viên có thể hỏi trước để dò la xem mình có phù hợp không (DS DE DA sẽ dùng Python khác nhau).
- Scala: Thường thì chỉ có vị trí data engineer mới có requirement này, nên làm rõ với hiring manager tại sao có requirement này nếu không phải data engineer. Thường thì requirement này sẽ đi kèm yêu cầu biết Spark.
- Java: Thường thì chỉ có ở vị trí data engineer và có cả các requirement về software engineering. Requirement này thường có kèm theo yêu cầu có kinh nghiệm với Kafka.
Term khi tuyển data analyst/ business intelligence analyst
Data visualization
- Tableau, Power BI : 2 công cụ phổ biến nhất trong các khóa học được bán trên mạng, tuy nhiên nếu ứng viên chưa có kinh nghiệm 2 công cụ này cũng chả sao cả ( nếu bạn không tuyển chuyên gia chỉ để làm 2 cái này )
- Superset, Metabase, vân vân: Cái này các bạn
Ở nhóm data visualization này thật ra chỉ cần có kinh nghiệm dùng một món thôi cũng được, đây không phải là requirement cứng trừ phi hiring manager đang muốn tuyển chuyên gia vẽ chart.
Term Data Engineering
- Kafka: hệ thống streaming được sử dụng nhiều nhất, thường nếu có kafka thì biết java sẽ là 1 plus point (không biết cũng không sao)
- Kinesis/ PubSub/…: Các hệ thống này thực chất cũng tương tự kafka như của cloud, nên chỉ cần có 1 kinh nghiệm trong số này là được.
- Spark hoặc pySpark : Hệ thống xử lí dữ liệu Bigdata -> đây là requirement mà bạn phải chú ý là có đi kèm với scala không, hay là chỉ python thôi (pySpark). Requirement này sẽ ảnh hưởng tới công việc thực tế của ứng viên.
- AWS EMR: là một service của AWS, là do công ty bạn đang dùng AWS chứ không phải là 1 requirement cứng(thường là vậy).
- ETL/ELT: đại khái là khái niệm DE nào cũng phải biết, không phải ngôn ngữ lập trình hay công cụ gì. (Nếu muốn tìm hiểu thêm có thể xem tại đây)
- CI/CD: role này có yêu cầu kiến thức tốt về software engineer hoặc có yêu cầu về kĩ năng dataops/ devops
- Data orchestration: Là một số công cụ như airflow, dagster, prefect,… biết một cái trong đống này đều có khả năng học các khác.
- Airflow: là một data orchestration tool (để riêng vì nó quá phổ biến)
- Hadoop:
- …. (sẽ update thêm khi rảnh rỗi)
Một vài term chết người (cân nhắc communicate kĩ với ứng viên)
- On-premise: công ty có server cứng , physical -> rất quan trọng cho ứng viên biết được bản thân họ có phải trực tiếp xử lí cái server cứng này không vì ảnh hưởng tới retention và hiệu quả công việc của họ
- Cloud: ngược lại với on-premise là trên cloud -> Thường được prefer bởi mọi người
- Đang migration từ on-premise lên cloud: Cần làm rõ điều này với hiring manager để khớp kì vọng công việc. Không khéo vô được 2 ngày rồi nghỉ. (vì sao hỏi hiring manager nhé)
- Hadoop: làm rõ với hiring manager là Hadoop and map reduce hay là Hadoop filesystem (rất quan trọng).
Term mới
Analytics Engineering: thường là công ty hoặc team của hiring manager đang sử dụng DBT
DBT: Công cụ model data mới nổi lên gần đây, muốn biết thêm có thể đọc tại
Reporting Engineer: Giống với analytics engineer, công ty muốn nhấn mạnh là để là chart với report (ở những role mình thấy).
Kết
Các bạn HR đọc bài này thấy có muốn hỏi gì cứ comment nhé, còn các bạn không phải HR mà vẫn đọc bài này thì mong là các bạn tìm được thông tin gì hữu ích.