Zaktualizuj indeks po posortowaniu ramki danych

103

Weź następującą ramkę danych:

x = np.tile(np.arange(3),3)
y = np.repeat(np.arange(3),3)
df = pd.DataFrame({"x": x, "y": y})
   x  y
0  0  0
1  1  0
2  2  0
3  0  1
4  1  1
5  2  1
6  0  2
7  1  2
8  2  2

Muszę to posortować xnajpierw, a dopiero potem y:

df2 = df.sort(["x", "y"])
   x  y
0  0  0
3  0  1
6  0  2
1  1  0
4  1  1
7  1  2
2  2  0
5  2  1
8  2  2

Jak mogę zmienić indeks tak, aby znów się wznosił. To znaczy, jak to uzyskać:

   x  y
0  0  0
1  0  1
2  0  2
3  1  0
4  1  1
5  1  2
6  2  0
7  2  1
8  2  2

Wypróbowałem następujące. Niestety w ogóle nie zmienia indeksu:

df2.reindex(np.arange(len(df2.index)))
Leming
źródło
3
Jeśli nie potrzebujesz nowego pliku df, wypróbujdf.sort(["x", "y"], ignore_index=True, inplace=True)
InnocentBystander

Odpowiedzi:

179

Możesz zresetować indeks za pomocą, reset_indexaby odzyskać domyślny indeks 0, 1, 2, ..., n-1 (i użyj, drop=Trueaby wskazać, że chcesz usunąć istniejący indeks zamiast dodawać go jako dodatkową kolumnę do ramki danych) :

In [19]: df2 = df2.reset_index(drop=True)

In [20]: df2
Out[20]:
   x  y
0  0  0
1  0  1
2  0  2
3  1  0
4  1  1
5  1  2
6  2  0
7  2  1
8  2  2
joris
źródło
To było bardzo pomocne. exp_data = exp_data.reindex (['year'], axis = 'columns') zachowało stary indeks. Drop usuwa stary indeks.
Golden Lion
14

Ponieważ pandy 1.0.0 df.sort_valuesmają nowy parametr, ignore_indexktóry robi dokładnie to, czego potrzebujesz:

In [1]: df2 = df.sort_values(by=['x','y'],ignore_index=True)

In [2]: df2
Out[2]:
   x  y
0  0  0
1  0  1
2  0  2
3  1  0
4  1  1
5  1  2
6  2  0
7  2  1
8  2  2
David
źródło
Myślę, że to nowość w wersji 1.0.0.
zyy
5

Możesz ustawić nowe indeksy za pomocą set_index:

df2.set_index(np.arange(len(df2.index)))

Wynik:

   x  y
0  0  0
1  0  1
2  0  2
3  1  0
4  1  1
5  1  2
6  2  0
7  2  1
8  2  2
ilyakhov
źródło
8
To jest niepotrzebne, użyj reset_index()zamiast tego
smci