Tính từ bài post cuối cùng vào năm qua – Tháng 3, 2023. Tuananalytic đã đi đâu?
Tại sao không post nữa?
Như các bạn đã biết từ tháng 3 năm 2023 mình đã không còn post bài trên blog này nữa như vậy mình đã đi đâu?
Table of Contents
Không: Tuananalytic không đi bán khoá học
Mình có một niềm tin mãnh liệt rằng ngành data nói chung không phải là một ngành bạn có thể đơn giản “dạy” trong một khoá học.
Khoá học rất nhiều trên mạng, nhiều người bán khoá học, pdf dạy học, chatGPT dạy bạn học, ai cũng có thể dạy bạn học. Kiến thức là để sẻ chia, không phải buôn bán.
Các bạn cũng có thể thấy, end-game của các bạn trẻ hiện nay là, lấy 10k-20k followers, rồi lên dụ các bạn sinh viên mua khoá học. Mình xin chia sẻ thẳng, NGƯỜI THỰC SỰ YÊU THÍCH CÔNG VIỆC DATA SẼ HOÀN TOÀN TỰ HỌC ĐƯỢC.
Không: Tuananalytic không đi lùa gà, không đi consult vô giá trị
Tuananalytic không đi consult vô giá trị, consulting về data là một việc rất khó.
Hầu hết công ty cần consulting về data thường không thể hoạt động hiệu quả ngay lập tức trong thời gian ngắn sau khi consult, vì sự thiếu chuẩn về mặt hạ tầng và nguồn lực.
Tuananalytic chỉ consult với các cá nhân, người trực tiếp quản lí và điều hành các vấn đề này, để có thể thay đổi và tác động tới kết quả lâu dài. Tuananalytic không đi training cho doanh nghiệp, không làm nhân viên của công ty đối tác phải học thứ họ không muốn học!
Ủa vậy tuananalytic đi đâu?
Như các bạn đã biết bài viết cuối cùng mà Tuananalytic viết là trên blog chính là bài viết dưới này: https://tuananalytic.com/ai-binh-dan-prompt-la-gi/
Thời điểm ChatGPT bắt đầu trở nên phổ biến, mình đã cảm thấy vô cùng thích thú với AI (trước đó mình đã có kiến thức về AI từ thời sinh viên) và chủ động tìm hiểu thêm về nó. Điều này dẫn tới việc mình tham gia một công ty AI và làm việc cho tới tận thời điểm hiện tại.
Tuananalytic còn viết blog không
Do tính chất quốc tế của công việc (100% bằng tiếng Anh) và mình còn phải đọc và viết rất nhiều bằng tiếng anh, nên mình đã quyết định bắt đầu viết blog bằng tiếng Anh tại blog dưới đây. Alan cũng là tên của mình trong tiếng anh.
Nội dung của blog AI của mình hiện tại bao gồm:
- Các kiến thức sâu về AI (cụ thể implementation của thuật toán như thế nào)
- Mẹo vặt AI và các công cụ AI
- Chia sẻ kiến thức training AI model
Tuananalytic biết cái gì về AI mà viết?
Một năm qua khi mình làm việc tại startup (mà một số bạn có thể biết tên là Jan AI) và hiện tại mình đã phát triển team research thành một lab có tên là “Homebrew Research”. Bạn có thể đọc thêm thông tin tại đường link này: https://homebrew.ltd/ .
Nhờ việc công ty vô cùng chú trọng vào việc phát triển AI độc lập (không gọi API sang OpenAI) và có số vốn khá bền vững nên mình có cơ hội được trải nghiệm và thực hiện nhiều dự án thú vị + mang đến cho mình khá nhiều kinh nghiệm bổ ích như.
Phát triển inference backend – nitro (hiện tại đang được rebrand lại thành cortex.cpp)
Để có thể chạy được LLM (mô hình ngôn ngữ lớn) như chatGPT trong máy tính cá nhân, bạn phải có một “inference engine” để có thể làm điều này. Để công ty có thể tự chủ được trong việc triển khai inference engine tới máy người dùng mình đã có 1 ý tưởng tự viết một inference backend dựa trên llama.cpp để giúp cho việc deploy AI model có thể gọn nhẹ nhất cỏ thể.
Hiện tại dự án đang được đổi tên sang cortex.cpp và mình đã bàn giao cho thành viên khác trong team để tiếp tục maintain do mình chuyển sang làm research, nhưng đây là đứa con tinh thần đầu tiên và nghiêm túc của mình khi mình chuyển đổi sang làm trong lĩnh vực AI, bạn có thể tìm hiểu thêm tại đây: https://github.com/janhq/cortex.cpp
Contribute dự án opensource (llama.cpp)
Mình có dành một chút thời gian để contribute vào llama.cpp tại link phía dưới.
https://github.com/ggerganov/llama.cpp/pull/4589
Phát triển model AI cho Jan.ai và “Homebrew Research”
Hiện tại mình đang phát triển các model AI khác nhau để phục vụ cho các nghiên cứu của lab Homebrew Research (và mình mong là lab sẽ có đủ resource sớm để publish paper).
Dự án lớn nhất mà bọn mình đang làm là phía dưới đây.
https://homebrew.ltd/blog/llama3-just-got-ears
Bọn mình đã phải:
- Viết lại training pipeline của llama3.1
- Viết lại tokenizer của llama3.1
- Viết audio-tokenizer để có thể tokenize được audio input thành tokens và train trực tiếp vào llama3.1 bằng phương pháp early fusion từ paper Chameleon của Llama 3.1
- Rất rất rất nhiều việc liên quan đến data như làm sạch dữ liệu, tìm dữ liệu, lưu trữ, ….. =[ (oh my god thật may mắn mình làm data trước đây)
Và còn nhiều nhiều thứ khác mà mình đã làm tại Homebrew Research lab.
Như vậy tuananalytic còn blog ở đây nữa không
Do tính chất công việc nên mình sẽ có nhiều thời gian blog tiếng anh hơn tại: https://alandao.net/ . Tuy nhiên, mình vẫn sẽ viết blog tiếng việt ở các chủ đề mà mình cảm thấy sẽ gần gũi với người Việt hơn khi mình có thời gian.
Và mình cũng sẽ chia sẻ phần lớn về AI từ đây trở về sau vì đó là công việc chính của mình hiện tại, mình vẫn sẽ chia sẽ về Data và Analytics khi có thời gian, nhưng sẽ ít hơn trước rất nhiều.
Kết
Cảm ơn các bạn đã theo dõi blog của mình và mình, mình sẽ duy trì nó cho tới khi nào không ai vào nữa thì thôi vì blog này đã đi cùng cho tới thời điểm hiện tại, khi mình còn là sinh viên vừa tốt nghiệp và hiện tại đã đi làm được khá lâu, đi nhiều nơi và trãi nghiệm nhiều thứ hơn. Một phần lớn trong đó cũng bắt đầu từ việc viết blog này mà mình được nhiều người biết đến và có nhiều cơ hội hơn, mình rất biết ơn vì điều đó.