Ako vykonať čistenie dát pomocou Pythonu a Pandy

Ako Vykonat Cistenie Dat Pomocou Pythonu A Pandy



Naučiť sa čistiť dáta pomocou Pythonu a Pandas je kľúčové pre každého, kto pracuje s dátami. Čistenie údajov sa väčšinou používa na presnú analýzu a modelovanie odstránením chýb a nezrovnalostí. Tento sprievodca vás krok za krokom prevedie procesom, ktorý nám ukáže, ako zaobchádzať s chýbajúcimi údajmi a zistiť alebo identifikovať odľahlé hodnoty. S nástrojmi Python a Pandas môžeme premeniť chaotické údaje na čisté a použiteľné informácie. Táto príručka nám tiež pomáha zlepšiť kvalitu našich údajov a pripraviť ich na analýzu a rozhodovanie.

Čistenie údajov pomocou Pythonu a Pandy

Dáta sú dnes ako stavebné kamene rozhodovania. Predstavte si však skupinu blokov rôznych tvarov a veľkostí z tejto kolekcie; je ťažké vybudovať niečo zmysluplné. Tu pomáha čistenie údajov.

Táto príručka skúma, ako vyčistiť údaje pomocou rámca Pythonu, ktorý je Pandas pre lepšie rozhodovanie. Čistenie dát je tiež nevyhnutné, ak vezmeme do úvahy, že pracujeme so zoznamom predajných záznamov pre predajňu. V zozname si môžeme všimnúť niektoré chýbajúce čísla, podivné dátumy a opakované položky bez dôvodu. Ak urobíme výpočty alebo záznamy na základe týchto informácií, tieto problémy môžu pokaziť naše výpočty a predpovede. Čistenie údajov pomáha vyriešiť tieto problémy a zabezpečuje, že naše údaje sú presné a pripravené na použitie.







Čistenie údajov zahŕňa spracovanie chýbajúcich údajov a čo robiť, keď niektoré údaje chýbajú, odstránenie duplikátov, zbavenie sa skopírovaných vecí, opravu typov údajov, uistenie sa, že všetko je v správnom formáte a riešenie odľahlých hodnôt alebo manipuláciu s číslami. ktoré do seba nezapadajú. Tieto chyby spôsobujú, že údaje vyzerajú rovnako a štandardizujú vzhľad údajov.



Ak chcete začať, najprv sa uistite, že máme nainštalovaný Python a Pandas. Môžeme to urobiť zadaním príkazov do terminálu alebo príkazového riadka nášho počítača. Na implementáciu kódov, ktoré sú uvedené v tejto príručke, môžeme použiť Python Pycharm IDE, ktoré je nainštalované v našom systéme, alebo online platformu Python, ktorá je „Google Colab“ a nainštalovať príkazy „pip“ na inštaláciu dôležitých knižníc.



Teraz importujme Pandy a načítajme naše vzorové údaje. V tomto príklade používame na spustenie kódov službu Google Colab. Najprv teda importujeme Pandy zadaním nasledujúceho príkazu:





! pip install pandy

importovať pandy ako pd

importovať numpy ako napr.

Potom načítame množinu údajov, ktorú chceme zobraziť, pomocou metódy pd.read(), ktorá berie cestu k súboru ako svoj vstupný parameter.

# Načítajte súbor údajov

údajov = pd. read_csv ( '/content/sample_data/california_housing_test.csv' )

# Zobrazte niekoľko prvých riadkov

vytlačiť ( údajov. hlavu ( ) )



V ďalšom príklade použijeme údaje o predaji v malom obchode. Aby sme zvládli chýbajúce údaje, informácie v našich údajoch niekedy chýbajú. Tieto chýbajúce časti nazývame „NaN“ (čo znamená „nie číslo“). Aby sme našli tieto chýbajúce hodnoty v skripte Python, najprv načítame množinu údajov, ako sme to urobili v predchádzajúcom príklade. Potom nájdeme všetky chýbajúce hodnoty v množine údajov pomocou funkcie „missing_values ​​= data.isnull().sum()“. Táto funkcia nájde všetky chýbajúce hodnoty v množine údajov. Potom ich zobrazíme pomocou funkcie print ().

! pip install pandy
importovať pandy ako pd
importovať numpy ako napr.

# Načítajte súbor údajov
údajov = pd. read_csv ( '/content/sample_data/california_housing_test.csv' )

# Zobrazte niekoľko prvých riadkov
vytlačiť ( údajov. hlavu ( ) )

# Skontrolujte chýbajúce hodnoty
chýbajúce_hodnoty = údajov. je nulový ( ) . súčet ( )

# Zobrazte počet chýbajúcich hodnôt podľa stĺpca
vytlačiť ( chýbajúce_hodnoty )

Keď nájdeme chýbajúce údaje v ľubovoľnom riadku, v ktorom je spustený kód, ktorý bol spomenutý vyššie, môžeme tieto riadky odstrániť, pretože tieto riadky neobsahujú veľa užitočných údajov. Môžeme dokonca uhádnuť tieto chýbajúce hodnoty a vyplniť prázdne miesta kvalifikovanými odhadmi odhadom údajov založených na čase na základe blízkych bodov.

Teraz odstránime duplikáty, ktoré sú kópiami tej istej veci, pretože môžu zmiasť našu analýzu. Na nájdenie duplicitných hodnôt v množine údajov používame funkciu „duplicate_rows = data[data.duplicated()]“. Aby sme zrušili tieto duplicitné hodnoty, zavoláme funkciu data.drop_duplicates(). Môžeme ich nájsť a odstrániť pomocou nasledujúceho kódu:

! pip install pandy
importovať pandy ako pd
importovať numpy ako napr.
# Načítajte súbor údajov
údajov = pd. read_csv ( '/content/sample_data/california_housing_test.csv' )
# Zobrazte niekoľko prvých riadkov
vytlačiť ( údajov. hlavu ( ) )

# Skontrolujte duplicitné riadky
duplicitné_riadky = údajov [ údajov. duplikované ( ) ]

# Odstráňte duplikáty
údajov = údajov. drop_duplicates ( )

# Zobrazte niekoľko prvých riadkov po odstránení duplikátov
vytlačiť ( údajov. hlavu ( ) )

Typy údajov rozhodujú o tom, aké údaje možno uložiť na opravu typov údajov. Pre každý druh údajov je dôležité mať správny typ. Napríklad dátumy by mali mať dátový typ dátum a čas a čísla by mali byť v dátovom type ako int, float atď. Na kontrolu dátových typov našich dát používame funkciu “data.dtypes”. Táto funkcia môže byť použitá nasledujúcim spôsobom:

! pip install pandy
importovať pandy ako pd
importovať numpy ako napr.
# Načítajte súbor údajov
údajov = pd. read_csv ( '/content/sample_data/california_housing_test.csv' )
# Zobrazte niekoľko prvých riadkov
vytlačiť ( údajov. hlavu ( ) )
# Skontrolujte typy údajov každého stĺpca
dátové_typy = údajov. dtypes

# Typy údajov zobrazenia
vytlačiť ( dátové_typy )

Ak nájdeme nejaké problémy, môžeme zmeniť typ údajov pomocou Pandas. Môžeme napríklad urobiť dátumy do formátu dátumu. Atribút „dtypes“ DataFrame poskytuje informácie o typoch údajov každého stĺpca. Ak zistíme, že typ údajov sa nezhoduje, môžeme použiť funkciu astype() Pandas na konverziu stĺpcov na požadované typy.

Po typoch údajov sa niekedy stretávame s odľahlými hodnotami, čo sú hodnoty, ktoré sa veľmi líšia od ostatných. Môžu pokaziť naše výpočty. Aby sme sa vyrovnali s odľahlými hodnotami, definujeme funkciu, ktorá používa funkciu z-score „np.abs(stats.zscore(data))“, ktorá porovnáva hodnoty, ktoré existujú v našich údajoch, s prahovou hodnotou. Akákoľvek hodnota iná ako rozsah tohto prahu sa považuje za odľahlú hodnotu . Pozrime sa, ako nájsť a zvládnuť odľahlé hodnoty:

! pip install pandy
importovať pandy ako pd
importovať numpy ako napr.

# Načítajte súbor údajov
údajov = pd. read_csv ( '/content/sample_data/california_housing_test.csv' )

# Zobrazte niekoľko prvých riadkov
vytlačiť ( údajov. hlavu ( ) )
od scipy importovať štatistiky

def detekovať odľahlé hodnoty ( údajov ) :
z_skóre = napr. abs ( štatistiky. zscore ( údajov ) )
vrátiť napr. kde ( z_skóre > 3 )

# Zistiť a zvládnuť odľahlé hodnoty v stĺpci „Predaj“.
odľahlé hodnoty = detekovať odľahlé hodnoty ( údajov [ 'zemepisná dĺžka' ] )
údajov [ 'zemepisná dĺžka' ] . miesto [ odľahlé hodnoty ] = údajov [ 'zemepisná dĺžka' ] . medián ( )

# V stĺpci „Predané jednotky“ zistite a ošetrite odľahlé hodnoty
odľahlé hodnoty = detekovať odľahlé hodnoty ( údajov [ 'zemepisná šírka' ] )
údajov [ 'zemepisná šírka' ] . miesto [ odľahlé hodnoty ] = údajov [ 'zemepisná šírka' ] . medián ( )

# Zobrazte niekoľko prvých riadkov po spracovaní odľahlých hodnôt
vytlačiť ( údajov. hlavu ( ) )

Používame jednoduchú metódu na nájdenie a opravu odľahlých hodnôt v predchádzajúcom kóde. Zahŕňa nahradenie extrémnych hodnôt strednou hodnotou údajov. Tento kód používa metódu Z-score na zistenie odľahlých hodnôt v stĺpcoch „zemepisná dĺžka“ a „zemepisná šírka“ našej množiny údajov. Odľahlé hodnoty sa nahradia strednými hodnotami ich príslušných stĺpcov.

Aby dáta vyzerali rovnako, dáta môžu niekedy vyzerať inak, aj keď znamenajú to isté. Napríklad dátumy môžu byť napísané v rôznych formátoch. Štandardizácia zahŕňa zabezpečenie konzistentného formátu a reprezentácie údajov. Môže to zahŕňať formátovanie dátumov, konverziu textu na malé písmená alebo normalizáciu číselných hodnôt. Štandardizujme stĺpec „Dátum“ v našej množine údajov a uistite sa, že naše údaje vyzerajú rovnako:

importovať pandy ako pd
importovať numpy ako napr. # Importovať numpy

# Načítajte údaje
údajov = pd. read_csv ( 'sales_data.csv' )

# Aby stĺpec 'Dátum' vyzeral konzistentne
údajov [ 'Dátum' ] = pd. to_datetime ( údajov [ 'Dátum' ] )

# Pozrite sa, ako to teraz vyzerá
vytlačiť ( údajov. hlavu ( ) )

V tomto príklade štandardizujeme formát dátumu v našej množine údajov na formát dátumu a času Pythonu pomocou funkcie „pd.to_datetime(data[‘Date’])“. Prevedením stĺpca „Dátum“ do rovnakého formátu uľahčujeme prácu s týmito údajmi. Výstup zobrazuje niekoľko prvých riadkov množiny údajov so štandardizovaným stĺpcom „Dátum“.

Záver

Na našej ceste čistením údajov pomocou Pythonu a Pandas sme sa naučili, ako zlepšiť naše údaje na analýzu. Začali sme tým, že sme pochopili, prečo je čistenie údajov také dôležité. Pomáha nám to robiť lepšie rozhodnutia. Preskúmali sme, ako sa vysporiadať s chýbajúcimi údajmi, odstrániť duplikáty, opraviť typy údajov, zvládnuť odľahlé hodnoty a zabezpečiť, aby naše údaje vyzerali rovnako. S týmito zručnosťami sme lepšie pripravení premeniť chaotické dáta na niečo, čomu môžeme dôverovať a pomocou ktorých objavíme dôležité informácie. Čistenie údajov je neustály proces, ako napríklad udržiavanie poriadku v našej izbe, a vďaka nemu je naša cesta analýzy údajov úspešnejšia.