Tự học Python: Pandas và Anaconda

Tự học Python: Pandas và Anaconda

Bắt đầu học Python chỉ trong 10 phút bằng việc cài đặt Anaconda và tập sử dụng pandas rất cơ bản. Thông thường mọi người sẽ bảo là vào trang web chính thức của Python và tải Python về sau đó cài pandas, jupyter-notebook,… qua pip mới là tutorial hoàn chỉnh.

Mình tin rằng với việc tiếp cận được những khái niệm cơ bản một cách nhanh nhất sẽ giúp bạn hiểu được một cách “trừu tượng” về Data tốt hơn. Cho nên các bạn có thể tải ngay Anaconda, nó sẽ bao gồm rất nhiều thứ để giúp bạn có thể làm được việc này.

Anaconda là gì

Anaconda là tên một loại trăn

Anaconda là một gói phần mềm, bao gồm rất nhiều phần mềm, thư viện khác nhau được đóng gói sẵn và chủ yếu viết bằng Python hoặc hoạt động trên Python. Anaconda đóng gói sẵn hàng trăm thư viện Data Science từ rất cơ bản như Pandas, Numpy, Scipy,… cho đến Scikit-learn,…

Như vậy khi bạn cài đặt Anaconda bạn đã cài đặt cả pandas rồi, bạn chỉ cần mở Jupyter-Notebook lên để chạy lệnh thôi.

Bạn có thể tải Anaconda phiên bản miễn phí cho cá nhân tại link dưới đây:

https://www.anaconda.com/products/individual

Sau khi bạn cài đặt xong bước đầu tiên sẽ là mở “Anaconda Navigator”, có giao diện giống với phía bên dưới

Mở Jupyter-Notebook

Mở Jupyter-Notebook

Jupyter-notebook

Sau khi đã mở thành công Anaconda Navigator, bạn tiếp tục với việc mở tiếp Jupyter-notebook, lúc này bạn sẽ thấy giao diện như bên dưới. Trong đó có nút “New” là nơi bạn có thể tạo thêm file python để lập trình, hoặc tạo thêm thư mục.

Tạo thư mục để làm việc

Bạn chọn Folder để tạo folder
Bạn chọn Python3 để tạo notebook

Mình tạo folder Tuan_analytic và file tên là hello_world, chúng ta sẽ có giao diện như dưới đây:

Folder và tên như hướng dẫn

Tải dữ liệu mẫu vào thư mục

Để thực hiện ví dụ chopandas mình đã tìm một file dữ liệu mẫu (dạng csv) bao gồm chiều cao và cân nặng của 25,000 người. Dữ liệu có thể được tải xuống tại đây.

Bạn có thể tải file khi nhấn nút tải xuống ngay phía trên, file có thể mở bằng excel nếu bạn muốn xem thử. Sau đó thư mục của bạn sẽ trông như thế này.

Hello World cùng Python

Code dòng hello world đầu tiên

Đầu tiên hãy mở file hello world như khi nãy chúng ta đã chuẩn bị và gõ vào

print('Hello World')

Sau đó nhấn tổ hợp phím Shift + Enter để chạy dòng lệnh này, note book sẽ trả về giá trị giống như bên dưới.

Dòng Hello World đầu tiên

Như vậy là bạn đã viết được dòng hello world bằng Python đầu tiên rồi, quá đơn giản phải không nào, bây giờ chúng ta sẽ tìm cách để đọc file dữ liệu hw_25000.csv như mình đã chuẩn bị nhé.

Hướng dẫn sử dụng pandas

Đọc file dữ liệu dạng bảng, có đuôi .csv

Để đọc được file dạng bảng bạn phải import thư viện pandas và chọn loại dữ liệu để đọc, hãy sử dụng lệnh bên dưới.

import pandas as pd

du_lieu = pd.read_csv('hw_25000.csv')

Và chạy như phía trên. Bạn vẫn không thấy gì cả? Tất nhiên rồi bạn phải gọi bảng này ra để tham khảo nữa. Hãy làm như hình dưới để có kết quả mong muốn.

Xem

Một số lệnh pandas cơ bản

Chọn cột

Bạn chỉ cần nhập tên cột vào bảng theo định dạng bên dưới để chọn riêng 1 cột

Chọn cột chiều cao

Ngoài ra bạn còn có thể thử một loạt lệnh cơ bản với pandas ở bên dưới, sau khi đã chọn được một cột.

Chọn giá trị lớn nhất trong cột (max)

du_lieu['Height'].max()

Chọn giá trị nhỏ nhất trong cột (min)

du_lieu['Height'].min()

Giá trị trung bình của cột (mean)

du_lieu['Height'].mean()

Giá trị trung vị của cột (median)

du_lieu['Height'].median()

Ngoài ra còn rất nhiều lệnh khác bạn có thể tham khảo thêm tại trang web chính thức của pandas.

Kết

Vậy là mình đã hướng dẫn các bạn cách tự cài Anaconda, sau đó tự viết cơ số lệnh đơn giản trong Python và pandas. Mong đây sẽ là khởi đầu tốt cho các bạn muốn tìm hiểu về pandas, cũng như data analytics, data science nói chung. Nếu bạn thấy bài viết có ích có thể ủng hộ qua mục Ủng hộ tuấn ly cà phê nhé:

Support Tuan | Analytic

Trả lời