Korzystając z języka R, przydatne jest ładowanie „ćwiczeniowych” zestawów danych za pomocą data(iris) lub data(mtcars) Czy jest coś podobnego dla Pand? Wiem, że mogę załadować inną metodą, jestem po prostu ciekawy, czy jest coś wbudowanego.
Korzystając z języka R, przydatne jest ładowanie „ćwiczeniowych” zestawów danych za pomocą data(iris) lub data(mtcars) Czy jest coś podobnego dla Pand? Wiem, że mogę załadować inną metodą, jestem po prostu ciekawy, czy jest coś wbudowanego.
Mam ramkę danych pandy (to tylko mały kawałek) >>> d1 y norm test y norm train len(y_train) len(y_test) \ 0 64.904368 116.151232 1645 549 1 70.852681 112.639876 1645 549 SVR RBF \ 0 (35.652207342877873, 22.95533537448393) 1 (39.563683797747622, 27.382483096332511) LCV \ 0...
Jaki jest najlepszy sposób wykonania grupowania w ramce danych Pandas, ale wykluczyć niektóre kolumny z tej grupy? np. mam następującą ramkę danych: Code Country Item_Code Item Ele_Code Unit Y1961 Y1962 Y1963 2 Afghanistan 15 Wheat 5312 Ha 10 20 30 2 Afghanistan 25 Maize 5312 Ha 10 20 30 4...
Chcę dodać _xsufiks do każdej nazwy kolumny w następujący sposób: featuresA = myPandasDataFrame.columns.values + '_x' Jak mam to zrobic? Dodatkowo, gdybym chciał dodać x_jako przyrostek, jak zmieniłoby się rozwiązanie?
Jeśli przekażę ramkę danych do funkcji i zmodyfikuję ją wewnątrz funkcji, czy jest to przekazanie przez wartość czy przekazanie przez odwołanie? Uruchamiam następujący kod a = pd.DataFrame({'a':[1,2], 'b':[3,4]}) def letgo(df): df = df.drop('b',axis=1) letgo(a) wartość anie zmienia się po...
Mam ramkę danych z kolumną o nazwie "Date"i chcę, aby wszystkie wartości z tej kolumny miały tę samą wartość (tylko rok). Przykład: City Date Paris 01/04/2004 Lisbon 01/09/2004 Madrid 2004 Pekin 31/2004 Chcę: City Date Paris 2004 Lisbon 2004 Madrid 2004 Pekin 2004 Oto mój kod: fr61_70xls...
Chcę mieć możliwość ustawienia głównych i pomocniczych znaczników oraz ich etykiet dla wykresu szeregów czasowych wykreślonych z obiektu szeregów czasowych Pandas. Na stronie Pandas 0.9 „co nowego” jest napisane: „możesz użyć to_pydatetime lub zarejestrować konwerter dla typu...
Używam pandy / python i mam dwie serie dat s1 i s2, które zostały wygenerowane za pomocą funkcji „to_datetime” w polu df zawierającym daty / godziny. Kiedy odejmuję s1 od s2 s3 = s2 - s1 Otrzymuję serię s3 typu timedelta64 [ns] 0 385 days, 04:10:36 1 57 days, 22:54:00 2 642 days,...
To powinno być proste, ale najbliższą rzeczą, jaką znalazłem, jest ten post: pandy: Uzupełnianie brakujących wartości w grupie , a nadal nie mogę rozwiązać swojego problemu .... Załóżmy, że mam następującą ramkę danych df = pd.DataFrame({'value': [1, np.nan, np.nan, 2, 3, 1, 3, np.nan, 3],...
Mam ramkę danych pandy. Chcę „opóźnić” jedną z moich kolumn. Oznacza to, na przykład, przesunięcie całej kolumny „gdp” w górę o jeden, a następnie usunięcie wszystkich nadmiarowych danych na dole pozostałych wierszy, tak aby wszystkie kolumny były znowu równej długości. df = y gdp cap 0 1 2...
Obecnie mam ramkę danych składającą się z kolumn z 1 i 0 jako wartościami, chciałbym iterować przez kolumny i usuwać te, które składają się tylko z 0. Oto, czego próbowałem do tej pory: ones = [] zeros = [] for year in years: for i in range(0,599): if year[str(i)].values.any() == 1:...
Poniższy kod nie działa. import pandas as pd import numpy as np df=pd.DataFrame(['ONE','Two', np.nan],columns=['x']) xLower = df["x"].map(lambda x: x.lower()) Jak powinienem to zmienić, aby uzyskać xLower = ['one', 'two', np.nan]? Wydajność jest ważna, ponieważ rzeczywista ramka danych jest...
Mam plik pd.DataFrameutworzony przez analizę niektórych arkuszy kalkulacyjnych programu Excel. Kolumna zawierająca puste komórki. Na przykład poniżej przedstawiono dane wyjściowe dla częstotliwości tej kolumny, w 32320 rekordach brakuje wartości dla dzierżawcy . >>>...
Mam ramkę danych, która może wyglądać następująco: A B C foo bar foo bar bar foo foo bar Chcę przejrzeć każdy element każdego wiersza (lub każdy element każdej kolumny) i zastosować następującą funkcję, aby uzyskać kolejny DF: def foo_bar(x): return x.replace('foo', 'wow') A B C wow bar...
Mam dużą ramkę danych z 423244 liniami. Chcę podzielić to na 4. Próbowałem następującego kodu, który dał błąd?ValueError: array split does not result in an equal division for item in np.split(df, 4): print item Jak podzielić tę ramkę danych na 4 grupy?
Właśnie zainstalowałem pakiet pandy i statsmodels na moim Pythonie 2.7. Kiedy próbowałem „zaimportować pandy jako pd”, pojawia się ten komunikat o błędzie. Czy ktoś może pomóc? Dzięki!!! numpy.dtype has the wrong size, try recompiling Traceback (most recent call last): File "<stdin>",...
Mam 2 ramki danych: restaurant_ids_dataframe Data columns (total 13 columns): business_id 4503 non-null values categories 4503 non-null values city 4503 non-null values full_address 4503 non-null values latitude 4503 non-null values longitude 4503 non-null values name 4503 non-null...
Tworzę mapę cieplną z tabeli pandas pivot_table, jak poniżej: table2 = pd.pivot_table(df,values='control',columns='Year',index='Region',aggfunc=np.sum) sns.heatmap(table2,annot=True,cmap='Blues') Tworzy mapę cieplną, jak pokazano poniżej. Widać, że liczby nie są ogromne (maksymalnie 750), ale...
Załóżmy, że mam ramkę danych z krajami, które są następujące: cc | temp US | 37.0 CA | 12.0 US | 35.0 AU | 20.0 Wiem, że istnieje funkcja pd.get_dummies służąca do konwersji krajów na „kodowanie na jeden gorący”. Chciałbym jednak przekonwertować je na indeksy zamiast takich, które otrzymam...
Chcę używać plików programu Excel do przechowywania danych opracowanych w Pythonie. Mój problem polega na tym, że nie mogę dodać arkuszy do istniejącego pliku Excela. Tutaj proponuję przykładowy kod do pracy w celu rozwiązania tego problemu import pandas as pd import numpy as np path =...