Bắt đầu học Python chỉ trong 10 phút bằng việc cài đặt Anaconda và tập sử dụng pandas rất cơ bản. Thông thường mọi người sẽ bảo là vào trang web chính thức của Python và tải Python về sau đó cài pandas, jupyter-notebook,… qua pip mới là tutorial hoàn chỉnh.
Mình tin rằng với việc tiếp cận được những khái niệm cơ bản một cách nhanh nhất sẽ giúp bạn hiểu được một cách “trừu tượng” về Data tốt hơn. Cho nên các bạn có thể tải ngay Anaconda, nó sẽ bao gồm rất nhiều thứ để giúp bạn có thể làm được việc này.
Table of Contents
Anaconda là gì
Anaconda là một gói phần mềm, bao gồm rất nhiều phần mềm, thư viện khác nhau được đóng gói sẵn và chủ yếu viết bằng Python hoặc hoạt động trên Python. Anaconda đóng gói sẵn hàng trăm thư viện Data Science từ rất cơ bản như Pandas, Numpy, Scipy,… cho đến Scikit-learn,…
Như vậy khi bạn cài đặt Anaconda bạn đã cài đặt cả pandas rồi, bạn chỉ cần mở Jupyter-Notebook lên để chạy lệnh thôi.
Bạn có thể tải Anaconda phiên bản miễn phí cho cá nhân tại link dưới đây:
https://www.anaconda.com/products/individual
Sau khi bạn cài đặt xong bước đầu tiên sẽ là mở “Anaconda Navigator”, có giao diện giống với phía bên dưới
Mở Jupyter-Notebook
Sau khi đã mở thành công Anaconda Navigator, bạn tiếp tục với việc mở tiếp Jupyter-notebook, lúc này bạn sẽ thấy giao diện như bên dưới. Trong đó có nút “New” là nơi bạn có thể tạo thêm file python để lập trình, hoặc tạo thêm thư mục.
Tạo thư mục để làm việc
Mình tạo folder Tuan_analytic và file tên là hello_world, chúng ta sẽ có giao diện như dưới đây:
Tải dữ liệu mẫu vào thư mục
Để thực hiện ví dụ chopandas mình đã tìm một file dữ liệu mẫu (dạng csv) bao gồm chiều cao và cân nặng của 25,000 người. Dữ liệu có thể được tải xuống tại đây.
Bạn có thể tải file khi nhấn nút tải xuống ngay phía trên, file có thể mở bằng excel nếu bạn muốn xem thử. Sau đó thư mục của bạn sẽ trông như thế này.
Hello World cùng Python
Code dòng hello world đầu tiên
Đầu tiên hãy mở file hello world như khi nãy chúng ta đã chuẩn bị và gõ vào
print('Hello World')
Sau đó nhấn tổ hợp phím Shift + Enter để chạy dòng lệnh này, note book sẽ trả về giá trị giống như bên dưới.
Như vậy là bạn đã viết được dòng hello world bằng Python đầu tiên rồi, quá đơn giản phải không nào, bây giờ chúng ta sẽ tìm cách để đọc file dữ liệu hw_25000.csv như mình đã chuẩn bị nhé.
Hướng dẫn sử dụng pandas
Đọc file dữ liệu dạng bảng, có đuôi .csv
Để đọc được file dạng bảng bạn phải import thư viện pandas và chọn loại dữ liệu để đọc, hãy sử dụng lệnh bên dưới.
import pandas as pd
du_lieu = pd.read_csv('hw_25000.csv')
Và chạy như phía trên. Bạn vẫn không thấy gì cả? Tất nhiên rồi bạn phải gọi bảng này ra để tham khảo nữa. Hãy làm như hình dưới để có kết quả mong muốn.
Một số lệnh pandas cơ bản
Chọn cột
Bạn chỉ cần nhập tên cột vào bảng theo định dạng bên dưới để chọn riêng 1 cột
Ngoài ra bạn còn có thể thử một loạt lệnh cơ bản với pandas ở bên dưới, sau khi đã chọn được một cột.
Chọn giá trị lớn nhất trong cột (max)
du_lieu['Height'].max()
Chọn giá trị nhỏ nhất trong cột (min)
du_lieu['Height'].min()
Giá trị trung bình của cột (mean)
du_lieu['Height'].mean()
Giá trị trung vị của cột (median)
du_lieu['Height'].median()
Ngoài ra còn rất nhiều lệnh khác bạn có thể tham khảo thêm tại trang web chính thức của pandas.
Kết
Vậy là mình đã hướng dẫn các bạn cách tự cài Anaconda, sau đó tự viết cơ số lệnh đơn giản trong Python và pandas. Mong đây sẽ là khởi đầu tốt cho các bạn muốn tìm hiểu về pandas, cũng như data analytics, data science nói chung. Nếu bạn thấy bài viết có ích có thể ủng hộ qua mục Ủng hộ tuấn ly cà phê nhé: