Jak uzyskać dostęp do odpowiedniej ramki danych typu groupby w obiekcie typu groupby za pomocą klucza?
Z następującą grupą:
rand = np.random.RandomState(1)
df = pd.DataFrame({'A': ['foo', 'bar'] * 3,
'B': rand.randn(6),
'C': rand.randint(0, 20, 6)})
gb = df.groupby(['A'])
Mogę go iterować, aby uzyskać klucze i grupy:
In [11]: for k, gp in gb:
print 'key=' + str(k)
print gp
key=bar
A B C
1 bar -0.611756 18
3 bar -1.072969 10
5 bar -2.301539 18
key=foo
A B C
0 foo 1.624345 5
2 foo -0.528172 11
4 foo 0.865408 14
Chciałbym mieć dostęp do grupy za pomocą jej klucza:
In [12]: gb['foo']
Out[12]:
A B C
0 foo 1.624345 5
2 foo -0.528172 11
4 foo 0.865408 14
Ale kiedy próbuję to zrobić, gb[('foo',)]
otrzymuję ten dziwny pandas.core.groupby.DataFrameGroupBy
obiekt, który wydaje się nie mieć żadnych metod odpowiadających ramce DataFrame, której chcę.
Najlepsze, o czym mogłem pomyśleć, to:
In [13]: def gb_df_key(gb, key, orig_df):
ix = gb.indices[key]
return orig_df.ix[ix]
gb_df_key(gb, 'foo', df)
Out[13]:
A B C
0 foo 1.624345 5
2 foo -0.528172 11
4 foo 0.865408 14
ale to trochę paskudne, biorąc pod uwagę, jak fajne są zazwyczaj pandy w takich sprawach.
Jaki jest na to wbudowany sposób?
groups = dict(list(gb))
tylko kolumnę sklepuC
? Powiedzmy, że nie interesują mnie inne kolumny i dlatego nie chcę ich przechowywać.dict(list( df.groupby(['A'])['C'] ))
dict(iter(g))
. (chociażget_group
jest to najlepszy sposób / ponieważ nie wymaga tworzenia słownika / trzyma w pandach!: D)gb_dict = {str(indx): str(val) for indx in gb.indx for val in gb.some_key}
a następnie pobrać wartość za pośrednictwemgb_dict[some_key]
get_group()
, ten przepis nie był potrzebny od lat.Zamiast
Wolę używać
gb.groups
Ponieważ w ten sposób możesz również wybrać wiele kolumn. na przykład:
źródło
gb[["A", "B"]].get_group("foo")
.Jeśli szukasz selektywnych obiektów do grupowania, wykonaj: gb_groups.keys () i wprowadź żądany klucz do następującej listy_kluczy.
źródło
Szukałem sposobu na próbkowanie kilku członków GroupBy obj - musiałem odpowiedzieć na opublikowane pytanie, aby to zrobić.
utwórz obiekt grupowania
wybierz N ramek danych i pobierz ich oznaczenia
chwyć grupy
opcjonalnie - przekształć to wszystko z powrotem w pojedynczy obiekt dataframe
źródło
sampled_df_i = random.sample(grouped.indicies, N)
AttributeError: 'DataFrameGroupBy' object has no attribute 'indicies'