Ini adalah perbandingan berdampingan kutub Dan Panda perpustakaan kerangka data, berdasarkan Panda masa kini oleh Tom Augsburger.

(Jika Anda belum pernah mendengarnya, Polars adalah pustaka kerangka data yang sangat cepat dan elegan yang melakukan hal yang sama seperti yang dilakukan Pandas.)

Sebagian besar buku ini adalah contoh terstruktur kode Polars dan Pandas idiomatik, dengan komentar tentang API dan kinerja keduanya.

Secara umum, saya berpendapat bahwa Polars “lebih baik” daripada Pandas, meskipun saya mencoba menjelaskan kapan Polars tidak memiliki fitur Pandas atau mengecewakan.

Untuk siapa ini?

Ini bukanlah pengenalan pemrograman data bagi pemula, meskipun Anda tentu tidak perlu menjadi ahli untuk membacanya. Jika Anda sudah familiar dengan pustaka kerangka data apa pun, sebagian besar contohnya seharusnya masuk akal, namun jika Anda sudah familiar dengan Pandas, contoh tersebut akan lebih masuk akal karena semua kode Polars disertai dengan kode Pandas yang setara.

Anda tidak perlu membaca Panda masa kinimeskipun menurutku ini bacaan yang bagus.

Mengapa?

Ada fenomena aneh di mana orang menulis kode pemrograman data seolah-olah mereka membenci diri mereka sendiri. Banyak dari mereka adalah tipe akademis atau quant yang tampaknya memiliki kompleksitas tentang “buruk dalam coding”. Selain psikologi kursi berlengan, banyak orang pintar yang terus melakukannya hal yang benar-benar bodoh dengan Pandas, dan pada titik tertentu Anda pasti bertanya-tanya apakah Pandas API terlalu sulit bagi penggunanya.

Setidaknya, artikel seperti Panda Minimal Cukup memberikan alasan kuat bagi Panda untuk melakukan terlalu banyak hal.

Karena sering menggunakan Panda, saya memikirkan Polars lebih intuitif dan berfungsi lebih baik dalam memiliki Satu Cara yang Jelas untuk melakukan sesuatu. Ini juga jauh lebih cepat dalam banyak hal, bahkan ketika Anda melakukan Pandas dengan cara yang benar.

Semoga karya ini menunjukkan kepada Anda bagaimana, mengapa, dan kapan memilih Polars.

Kredit

Contoh Pandas sebagian besar diambil dari artikel Tom, dengan beberapa pembaruan untuk data yang tidak lagi tersedia, dan beberapa perubahan kode untuk mencerminkan bagaimana Pandas ditulis pada tahun 2023. Ini bukan hanya karena saya malas – saya ingin memanfaatkan contoh Pandas yang cukup banyak orang yang sudah mengenalnya.

Jadi penghargaan diberikan kepada Tom untuk contoh Pandas, untuk sebagian besar kode pengambilan data dan untuk struktur umum artikel. Sedangkan isi teks dan contoh Polars berasal dari saya.

Menjalankan kodenya sendiri

Anda dapat menginstal paket yang sama persis dengan yang digunakan buku tersebut dengan env.yml mengajukan:

mamba env create -f env.yml

Jika Anda tidak menggunakan mamba/conda Anda dapat menginstal versi paket berikut dan itu akan berfungsi:

polars: 1.0.0
pyarrow: 10.0.1
pandas: 2.2.2
numpy: 1.26.4
fsspec: 2024.6.1
matplotlib: 3.8.0
seaborn: 0.13.2
statsmodels: 0.14.2

Data

Semua kode pengambilan data disertakan, tetapi pada akhirnya akan rusak saat situs web berubah atau ditutup. Kumpulan data yang lebih kecil telah diperiksa Di Sini untuk anak cucu.

Berkontribusi

Buku ini gratis dan open source, jadi silakan lakukan membuka masalah jika Anda melihat ada masalah!

Sumber

Krystian Wiśniewski
Krystian Wiśniewski is a dedicated Sports Reporter and Editor with a degree in Sports Journalism from He graduated with a degree in Journalism from the University of Warsaw. Bringing over 14 years of international reporting experience, Krystian has covered major sports events across Europe, Asia, and the United States of America. Known for his dynamic storytelling and in-depth analysis, he is passionate about capturing the excitement of sports for global audiences and currently leads sports coverage and editorial projects at Agen BRILink dan BRI.