Jak wybrać wiersze z DataFrame podstawie wartości w niektórych kolumnach w Python Pandas? W SQL użyłbym: SELECT * FROM table WHERE colume_name = some_value Próbowałem przejrzeć dokumentację pand, ale nie znalazłem od razu
Ramka danych jest tabelaryczną strukturą danych. Zwykle zawiera dane, w których wiersze są obserwacjami, a kolumny zmiennymi różnego typu. Chociaż „ramka danych” lub „ramka danych” jest terminem używanym w tej koncepcji w kilku językach (R, Apache Spark, deedle, Maple, biblioteka pand w Pythonie i biblioteka DataFrames w Julii), „tabela” jest terminem używanym w MATLAB i SQL.
Jak wybrać wiersze z DataFrame podstawie wartości w niektórych kolumnach w Python Pandas? W SQL użyłbym: SELECT * FROM table WHERE colume_name = some_value Próbowałem przejrzeć dokumentację pand, ale nie znalazłem od razu
Mam DataFramez pand: import pandas as pd inp = [{'c1':10, 'c2':100}, {'c1':11,'c2':110}, {'c1':12,'c2':120}] df = pd.DataFrame(inp) print df Wynik: c1 c2 0 10 100 1 11 110 2 12 120 Teraz chcę iterować po wierszach tej ramki. Dla każdego wiersza chcę mieć dostęp do jego elementów (wartości w...
Mam ramkę danych przy użyciu pand i etykiet kolumn, które muszę edytować, aby zastąpić oryginalne etykiety kolumn. Chciałbym zmienić nazwy kolumn w DataFrame, Agdzie oryginalne nazwy kolumn to: ['$a', '$b', '$c', '$d', '$e'] do ['a', 'b', 'c', 'd', 'e']. Mam edytowane nazwy kolumn zapisane...
Podczas usuwania kolumny w ramce danych używam: del df['column_name'] I to działa świetnie. Dlaczego nie mogę użyć poniższych? del df.column_name Ponieważ można uzyskać dostęp do kolumny / serii as df.column_name, spodziewałem się, że to
Chcę posortować ramkę danych według wielu kolumn. Na przykład z data.frame poniżej chciałbym sortować według kolumny z(malejąco), a następnie według kolumny b(rosnąco): dd <- data.frame(b = factor(c("Hi", "Med", "Hi", "Low"), levels = c("Low", "Med", "Hi"), ordered = TRUE), x = c("A", "D",...
Biorąc pod uwagę dwie ramki danych: df1 = data.frame(CustomerId = c(1:6), Product = c(rep("Toaster", 3), rep("Radio", 3))) df2 = data.frame(CustomerId = c(2, 4, 6), State = c(rep("Alabama", 2), rep("Ohio", 1))) df1 # CustomerId Product # 1 Toaster # 2 Toaster # 3 Toaster # 4 Radio # 5 Radio # 6...
Mam dane w różnych kolumnach, ale nie wiem, jak je wyodrębnić, aby zapisać je w innej zmiennej. index a b c 1 2 3 4 2 3 4 5 Jak wybrać 'a', 'b'i zapisać go w celu DF1? próbowałem df1 = df['a':'b'] df1 = df.ix[:, 'a':'b'] Wydaje się, że żaden nie
Chcę uzyskać listę nagłówków kolumn z pandy DataFrame. DataFrame będzie pochodzić z danych wprowadzanych przez użytkownika, więc nie będę wiedział, ile kolumn będzie i jak będą one nazywane. Na przykład, jeśli otrzymam DataFrame w ten sposób: >>> my_dataframe y gdp cap 0 1 2 5 1 2 3 9 2...
Mam następujące zindeksowane DataFrame z nazwanymi kolumnami i wierszami nieciągłymi liczbami: a b c d 2 0.671399 0.101208 -0.181532 0.241273 3 0.446172 -0.243316 0.051767 1.577318 5 0.614758 0.075793 -0.451460 -0.012493 Chciałbym dodać nową kolumnę 'e'do istniejącej ramki danych i nie chcę...
Próbuję uzyskać liczbę wierszy ramki danych df za pomocą Pandas, a oto mój kod. Metoda 1: total_rows = df.count print total_rows +1 Metoda 2: total_rows = df['First_columnn_label'].count print total_rows +1 Oba fragmenty kodu dają mi ten błąd: TypeError: nieobsługiwane typy operandów dla +:...
Mam następujące DataFrame( df): import numpy as np import pandas as pd df = pd.DataFrame(np.random.rand(10, 5)) Dodaję więcej kolumn według przypisania: df['mean'] = df.mean(1) Jak mogę przenieść kolumnę meanna przód, tzn. Ustawić ją jako pierwszą kolumnę, pozostawiając kolejność pozostałych...
Mam wiele kolumn, które chciałbym usunąć z ramki danych. Wiem, że możemy je usuwać indywidualnie za pomocą: df$x <- NULL Miałem jednak nadzieję, że zrobię to z mniejszą liczbą poleceń. Wiem też, że mogłem upuścić kolumny za pomocą indeksowania liczb całkowitych w następujący sposób: df <-...
Rozumiem, że pandy są zaprojektowane do ładowania w pełni wypełnionych, DataFrameale muszę utworzyć pustą ramkę danych, a następnie dodać wiersze, jeden po drugim . Jak najlepiej to zrobić? Pomyślnie utworzyłem pustą ramkę danych z: res = DataFrame(columns=('lib', 'qty1', 'qty2')) Następnie mogę...
Chciałbym usunąć linie w tej ramce danych, które: a) zawierają NAs we wszystkich kolumnach. Poniżej znajduje się moja przykładowa ramka danych. gene hsap mmul mmus rnor cfam 1 ENSG00000208234 0 NA NA NA NA 2 ENSG00000199674 0 2 2 2 2 3 ENSG00000221622 0 NA NA NA NA 4 ENSG00000207604 0 NA NA 1...
Chcę przekonwertować tabelę reprezentowaną jako lista list na plik Pandas DataFrame. Jako wyjątkowo uproszczony przykład: a = [['a', '1.2', '4.2'], ['b', '70', '0.03'], ['x', '5', '0']] df = pd.DataFrame(a) Jaki jest najlepszy sposób przekonwertowania kolumn na odpowiednie typy, w tym przypadku...
Mam to DataFramei chcę tylko rekordy, których EPSkolumna nie jest NaN: >>> df STK_ID EPS cash STK_ID RPT_Date 601166 20111231 601166 NaN NaN 600036 20111231 600036 NaN 12 600016 20111231 600016 4.3 NaN 601009 20111231 601009 NaN NaN 601939 20111231 601939 2.5 NaN 000001 20111231 000001...
Mam ramkę danych, a niektóre kolumny mają NAwartości. Jak zastąpić te NAwartości
Mam ramkę danych w pandach, którą chciałbym zapisać do pliku CSV. Robię to za pomocą: df.to_csv('out.csv') I pojawia się błąd: UnicodeEncodeError: 'ascii' codec can't encode character u'\u03b1' in position 20: ordinal not in range(128) Czy jest jakiś sposób na łatwe obejście tego problemu (tzn....
Mam listę takich słowników: [{'points': 50, 'time': '5:00', 'year': 2010}, {'points': 25, 'time': '6:00', 'month': "february"}, {'points':90, 'time': '9:00', 'month': 'january'}, {'points_h1':20, 'month': 'june'}] I chcę zmienić to w pandy DataFrame taką: month points points_h1 time year 0...
Często pracuję z Series i DataFrames na terminalu. Wartość domyślna __repr__dla Serii zwraca zredukowaną próbkę, z pewnymi wartościami głowy i ogona, ale reszty brakuje. Czy istnieje wbudowany sposób na ładne wydrukowanie całej Series / DataFrame? Idealnie byłoby wspierać prawidłowe wyrównanie,...