Pandas Join vs Merge

Pandas Join Vs Merge



„Pandas“ je vysoko výkonný nástroj pre prostredie python. Je to „otvorený“ zdrojový kód na analýzu údajov. Spojenie pand a metóda zlúčenia pandy sa používajú na spojenie dvoch dátových rámcov do jedného dátového rámca. V oboch metódach pandy je rozdiel v tom, že funkcia pandy „join“ sa pripája k dátovému rámcu pomocou indexu. Zatiaľ čo funkcia pandy „zlúčiť“ sa pripája k dátovému rámcu pomocou indexu a metódy stĺpca, v ktorej si môžeme sami vybrať požadovaný stĺpec. Metóda zlúčenia pand sa používa väčšinou v porovnaní s metódou spájania pand. Softvér, ktorý použijeme na implementáciu, je softvér „spyder“, ktorý je v prostredí python a ktorý nám poskytne výhody pre implementáciu kódu metódy pandas join() a funkcie metódy pandas merge().

Syntax metódy Pandas Join().

'df1. pripojiť sa ( df2 )

„df“ vo vyššie uvedenej syntaxi je skratka „dataframe“. V syntaxi sú dva dátové rámce s funkciou „dot join“, ktorá slúži na volanie metódy. Je to metóda pandy spájania dvoch dátových rámcov. Funguje to tak, že pomocou indexu sa dátové rámce kombinujú do jedného.







Syntax metódy Pandas Merge().

'df1. zlúčiť ( df2 , na = 'názov_stĺpca' )

Syntax metódy zlúčenia pandas má dva dátové rámce ako „df1“ a „df2“. Funkcia „dot merge“ vyvoláva metódu spojenia oboch dátových rámcov so vzhľadom invertovaných stĺpcov.



Budeme sa zaoberať nasledujúcimi spôsobmi kombinovania dvoch dátových rámcov, aby sme mohli použiť metódy zlúčenia pandy a spojenia pandy:



  • Metóda Pandas Join sa prekrýva.
  • Pandy sa pripájajú k metóde pomocou obnovenia indexu.
  • Metóda zlúčenia Pandy (stĺpec „vľavo a vpravo“).
  • Explicitná metóda zlúčenia Pandy.

Vytvorenie dátových rámcov pre implementáciu metódy Pandas Merge a Pandas Join

Najprv musíme vytvoriť dátový rámec. Na to použijeme nástroj „spyder“. Po jeho otvorení začnite písať kód. Importujte pandy ako „pd“ pre asociáciu knižnice pandy. Máme premenné dátového rámca ako „x“, „y“, „p“ a „q“ a „a“ s hodnotami „1“ a „b“ s hodnotou priradenou ako „2“.





Výstupom je „df“ vytvorený s priradenými hodnotami. Môžeme to urobiť tak veľké, ako sú údaje.



Vytvorenie ďalšieho dátového rámca

Musíme vytvoriť ďalší dátový rámec, aby sme jasne porozumeli metódam spájania a spájania pánd. Tu máme „df“ vytvorené rovnako ako vyššie „df“, len hodnoty sú priradené premenné odlišné. Máme „h“, „j“, „s“ a „d“, pričom hodnoty „b“ priraďujeme hodnotou „8“ a „Y“ hodnotou „3“.

Výstup zobrazuje jednoduchý vytvorený „df“.

Príklad č. 01: Metóda spojenia s pandami (prekrývajúce sa)

Teraz uvidíme, ako spojiť dva dátové rámce pomocou metódy spojenia pandas. Pre túto metódu si môžeme vybrať stĺpec podľa vášho výberu, na ktorom chceme pracovať z dátového rámca. Zobrali sme príklad s prekrývajúcim sa stĺpcom „vľavo“ z „df“, takže to môžeme opraviť pomocou „prípony“, aby sme prekonali prekrývanie údajov. Tu sa používajú premenné „x“, „z“, „v“, „d“. „p“, „o“, „l“ a „y“ s hodnotami priradenými ako „3“, „6“, „7“ a „9“. „.join“ volá metódu, pričom zarovnanie je nastavené na ľavé spojenie s pravou príponou „df“. “. „Prípona“ použitá v kóde je spôsobená tým, že v dátovom rámci sú dva stĺpce, ktoré majú rovnaký názov, ktorý je „kľúč“ a ktoré sa nebudú prekrývať s údajmi.

Výstup nezobrazuje žiadne prekrývajúce sa údaje pri metóde spojenia dvoch „df“ pomocou metódy spojenia pandas.

Príklad č. 02: Metóda spojenia Pandas s použitím obnovenia indexu

V tomto príklade budeme samostatne špecifikovať stĺpec s parametrom „on“, ktorý sa má použiť ako „kľúč“ v spojení metódy, ktorá pomáha pri spájaní dvoch dátových rámcov. kombinovaná vec sa robí s týmto parametrom. Tiež index jedného z dvoch „df“ by mal byť podobný, aby sa k nim pripojil. Podobné druhy údajov alebo údajov používaných na rovnaký účel môžu byť na spracovanie spoločne. Toto použije index stále pomocou sprava. Premenné sú „s“, „t“, „u“, „v“, „n“, „w“, „k“ a „q“. Priradené hodnoty sú „3“, „6“, „7“ a „9“. „Reset dot index“ je metóda pandy na resetovanie indexu „df“. Index resetovania nastavuje všetky celé čísla vášho výpisu dátového rámca od 0, kým sa dáta dátového rámca predĺžia.

Tu je zobrazený výstup s indexovým „kľúčovým“ spôsobom spojenia pand.

Príklad č. 03: Metóda zlúčenia pandy (stĺpec „vľavo a vpravo“)

Metóda zlúčenia vykonáva podobnú operáciu ako metóda spojenia pandas. Obe metódy slúžia na kombinovanie údajov na podobnom dátovom rámci. Metóda zlúčenia je všestrannejšia a vyžaduje zadanie kľúča. Môžeme ho špecifikovať aj v ľavom a pravom stĺpci v závislosti od práce vášho dátového rámca. Premenné v kóde sú „s“, „d“, „g“, „f“, „k“, „j“, „b“ a „q“. priradené hodnoty sú „9“, „5“, „6“ a „7“. Vonkajšia implementácia „join“ sa vykonáva na oboch „df“ pomocou parametra „how“ funkcie metódy zlúčenia pandy.

Výstup, ktorý vidíme, zobrazuje zlúčené údaje dvoch dátových rámcov. „NaN“ predstavuje „nie je číslo“, čo znamená, že ak v údajoch nie je priradené žiadne číslo, zobrazí sa tam „NaN“.

Príklad č. 04: Metóda zlúčenia Explicitne

V tomto príklade je metóda zlúčenia zničením indexu a hodnota indexu sa v dátovom rámci nepredpokladá. Túto metódu budeme robiť podľa práce, ktorú je potrebné vykonať, pričom špecifikácia má nasledovať. Zlúči údaje na základe ľavého indexu alebo pravého indexu s parametrom. Premenné v tomto dátovom rámci sú „t“, „r“, „I“, „u“, „h“, „o“, „e“ a „e“. Priradené hodnoty sú „2“, „4“, „6“ a „4“. Vyššie uvedený príklad metódy zlúčenia pandy s výberom stĺpcov podľa potreby je najreprezentatívnejšou a najhodnotnejšou metódou spojenia dvoch dátových rámcov. Kontrola na konci riadku kódu, či je zlučovací kľúč v množine údajov jedinečný.

V nižšie uvedenom výstupe nie je index zobrazený bez indexu, ale funkcia sa vykonáva na základe pravého a ľavého indexu.

Záver

Metódy merge() a join() sú metódy, ktoré sú veľmi pohodlné a efektívne. Obe tieto funkcie sa používajú na spojenie dvoch samostatných dátových rámcov na rovnakom dátovom rámci, ale majú rôzne použitie v závislosti od prípadu. V tomto článku sme sa naučili kľúčové rozdiely medzi metódou spájania a spájania pandy. Po vykonaní príkladov a pochopení metódy spájania pandy ju uzavrieme s vedomím, že ak chceme flexibilnejšie spájanie v štýle databázy, je vhodnejšie použiť metódu zlúčenia pandy. Na druhej strane, ak chceme vo veľkej miere kombinovať dátový rámec s indexom, môžeme použiť funkciu metódy pandas join().