Pandy Qcut

Pandy Qcut



„Python“ obsahuje veľa knižníc a keď chceme analyzovať alebo manipulovať s údajmi, využívame tieto „Pythonove“ knižnice a „pandy“ sú tiež ich knižnicou. Knižnica „pandy“ sa používa v oblasti dátových vied a tiež sa používa v aktivitách strojového učenia. DataFrame „pandy“ nám pomáha pri ukladaní údajov. V prípade „pandy“, keď chceme triedenie údajov, použijeme metódu „qcut()“. Metóda „qcut()“ sa používa na konverziu spojitých prvkov na kategorické. V tejto metóde „qcut()“ môžeme pridať rôzne typy parametrov na získanie rôznych typov výsledkov. Tento tutoriál je celý o metóde „qcut()“ a tu podrobne vysvetlíme metódu „qcut()“. V tomto návode vám vysvetlíme, ako robíme zoraďovanie údajov pomocou funkcie „qcut()“ v „pandách“.

Príklad #01

V týchto kódoch použijeme metódu „qcut()“ a tieto kódy vykonáme v aplikácii „Spyder“. Keď musíme pracovať s „pandami“, k ich funkciám máme prístup len vtedy, keď do našich kódov importujeme knižnicu „pandy“. Najprv dáme „import“ a potom napíšeme „pandy ako pd“. Teraz musíme použiť metódu „qcut()“, takže tu vytvárame DataFrame. Skonštruujeme „Random_df“ obsahujúce stĺpce „R_ID, R_name a R_age“ a tiež do „R_ID“ umiestnime „R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, R_61, R_73 a R_81“. Potom do stĺpca „R_name“ pridáme „Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob a Harper“. Potom do stĺpca „R_age“ vložíme „21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37 a 40“. Teraz používame funkciu „print()“, ktorá obsahuje „Random_df“, a pomôže nám pri vykresľovaní dátového rámca „Random_df“. Práve sme vytvorili DataFrame a zatiaľ nepoužívame metódu „qcut()“.








Ikona „Spustiť“ nám pomáha pri vykonávaní kódov. Keď stlačíme túto ikonu „spustiť“, výsledok tohto kódu sa zobrazí na termináli aplikácie „Spyder“. DataFarme „Random_df“ je zobrazená ako výsledok kódu, ktorý sme napísali v tomto príklade. Teraz použijeme metódu „qcut()“ a tiež ukážeme jej výsledok.




Tu spájame údaje. Zoraďujeme stĺpec „R_age“ a umiestňujeme metódu „pd.qcut()“, čo je metóda „pandy“, ktorá pomáha pri triedení údajov. V tejto metóde vložíme názov DataFrame a tiež názov stĺpca, na ktorý chceme použiť metódu „qcut()“. Nastavili sme tiež hodnotu „q“ na „5“ a používa sa na rozrezanie údajov v stĺpci „R_age“ na päť rovnakých kvantilov. Pridáme metódu „qcut()“ do „print()“, takže na termináli zobrazí aj údaje o binningu.




Tu sa zobrazia údaje po binningu a rozdelí „R_age“ na päť kvantilov. Zobrazuje tiež kategórie, v ktorých sú zoskupené údaje stĺpca „R_age“. Kategorický rad predstavuje koše „R_age“.






K týmto košom vieme upraviť aj štítok. Pridávame tieto štítky na odpadky, aby sa dali ľahko interpretovať. Do stĺpca „Random_df“ pridáme stĺpec „R_age_qcut“, do ktorého pridáme štítky týchto zásobníkov. Na ich označenie opäť používame metódu „pd.qcut()“. Pridávame do nej štítky, ktoré sú „malé, nie tak málo, priemerné, vysoké a najvyššie“. Potom znova vložíme „Random_df“ do „print()“.


Všetky nádoby sú označené a prezentované v tomto výsledku. V tomto DataFrame sa zobrazuje stĺpec „R_age_qcut“, v ktorom sú zobrazené označené zásobníky.



Príklad #02

Na vytvorenie dátového rámca najprv pridáme „stupne“, ktoré sú „3, 6, 8, 7, 2, 5, 1, 9, 4, 7 a 8“. Potom do „študentov“ pridáme mená študentov, ktorými sú „Peter, Bromley, James, David, Allies, John, James, Samuel, William, Howard a Alexander“. Potom vygenerujeme „Grades_df“, kam sme pridali metódu „pd.DataFrame()“, a do tejto metódy vložíme „Std_name“, ktorý sa zobrazí ako názov stĺpca, a priradíme mu hodnoty „students“. Potom nastavíme „Students_grades“ ako názov stĺpca DataFrame a tiež tu priradíme „známky“, ktoré sme vytvorili vyššie. Potom máme „print()“, do ktorého pridáme „Grades_df“ pre tlač.


Vo výsledku tohto kódu sa zobrazí DataFrame obsahujúci dva stĺpce. Teraz použijeme metódu „qcut()“ na stĺpec „Students_grades“ na spojenie údajov hodnôt tohto stĺpca.


Pridáme sem nový stĺpec „grade“, v ktorom sme použili „pd.qcut()“ na stĺpec „Students_grades“, a tiež sme použili „4“ pre hodnotu „q“, takže sa zníži údaje do štyroch rovnakých kvantilov. Potom tu tieto kvantily špecifikujeme umiestnením hodnôt do „q“, ktoré sú „0, 0,4, 0,8 a 1“. Potom to tiež zobrazíme. Teraz označujeme tieto zoskupené údaje a označenia, ktoré tu pridávame, sú „D, C, A a B“ a sú tiež uložené v stĺpci „stupeň“.


Tu sa údaje po zoradení zobrazia v stĺpci „známka“ a údaje zo stĺpca „Študenti_známky“ sa rozdelia na štyri rovnaké kvantily.


V tomto výsledku sa zobrazí DataFrame, ktorý získame po použití metódy „qcut()“ a špecifikovaní kvantilov.


Teraz, po pridaní štítkov do týchto zásobníkov sa v tomto výsledku vykreslia aj v stĺpci „známka“ a môžete vidieť, že priraďuje štítky podľa hodnôt zásobníka.

Príklad #03

Na údaje súboru CSV môžeme použiť aj metódu „qcut()“. Na tento účel najprv načítame údaje súboru CSV pomocou metódy „read_csv()“. Čítame údaje súboru „office2.csv“ a potom sa údaje tohto súboru umiestnia do súboru „Office_df“. Táto metóda skonvertuje údaje súboru „office2“ do DataFrame a uloží ich do „Office_df“. Potom tieto údaje zobrazíme aj umiestnením „Office_df“ do „print()“. Potom pridáme nový stĺpec s názvom „Units_qcut“, na ktorý aplikujeme funkciu „pd.qcut()“ do stĺpca „Units“.

Okrem toho nastavíme hodnotu premennej „q“ na „5“, čím sa údaje rozdelia do piatich rovnakých kvantilov. Dáta sa po rozrezaní na 5 rovnakých kvantilov uložia do stĺpca „Units_qcut“ a tento stĺpec sa tiež pridá do „Office_df“ a „Office_df“ sa tu opäť vykreslí pomocou „print()“. Teraz tieto zoskupené údaje označujeme, pridávame štítky v metóde „qcut()“, ktoré sú „Jednotka 1, Jednotka 2, Jednotka 3, Jednotka 4 a Jednotka 5“ a ukladáme ich aj do stĺpca „Štítky“. . Vykreslíme aj tento DataFrame, do ktorého je pridaný stĺpec „Labels“.


Dáta, ktoré získame po prečítaní súboru „office2.csv“, sa tu vykresľujú vo forme DataFrame. Potom sa pridá stĺpec „Units_qcut“, v ktorom sú zobrazené združené hodnoty stĺpca „Units“. Potom sa pridá aj stĺpec „Štítky“, ktorý priradí štítky k týmto binárnym hodnotám. To všetko sa vykonáva pomocou metódy „qcut()“ v „pandách“.

Záver

V tomto návode sme podrobne vysvetlili metódu „qcut()“, ktorá pomáha pri spájaní údajov v „pandách“. Diskutovali sme o tom, že údaje sú zoskupené podľa kvantilovej hodnoty „q“, ktorú sme pridali v metóde „qcut()“, a tiež sme prispôsobili označenia týmto zoskupeným údajom. Preskúmali sme metódu „qcut()“ a aplikovali sme túto metódu na stĺpce DataFrame a tiež sme túto metódu „qcut()“ aplikovali na údaje súboru CSV po prečítaní súborov CSV. V tomto návode sme predstavili výsledok všetkých kódov, aby sme jasne vysvetlili a ukázali výsledok metódy „qcut()“.