W prawdziwym procesorze graficznym zamiast wielu rdzeni próbujących odczytywać / zapisywać ten sam region bufora głębokości i próbujących synchronizować je, bufor głębokości jest podzielony na kafelki (takie jak 16 × 16 lub 32 × 32), a każdy z nich kafelek jest przypisany do jednego rdzenia. Rdzeń ten jest następnie odpowiedzialny za całą rasteryzację w tym kafelku: wszelkie trójkąty dotykające tego kafelka zostaną zrasteryzowane (w obrębie tego kafelka) przez rdzeń będący właścicielem. Wówczas nie ma interferencji między rdzeniami i nie trzeba ich synchronizować podczas uzyskiwania dostępu do części bufora ramki.
Oznacza to, że trójkąty dotykające wielu płytek będą musiały zostać zrasteryzowane przez wiele rdzeni. Jest więc krok redystrybucji pracy między przetwarzaniem geometrii (operacje na wierzchołkach i trójkątach) a przetwarzaniem pikseli.
Na etapie geometrii każdy rdzeń może przetwarzać fragment operacji pierwotnych; następnie dla każdego elementu pierwotnego może szybko określić, które płytki dotyka element pierwotny (nazywa się to „zgrubną rasteryzacją”), i dodać element podstawowy do kolejki dla każdego rdzenia, który jest właścicielem jednego z dotkniętych płytek.
Następnie, na etapie pikseli, każdy rdzeń może odczytać listę prymitywów w swojej kolejce, obliczyć pokrycie pikseli dla płytek posiadanych przez rdzeń i przejść do testów głębokości, cieniowania pikseli i aktualizacji bufora ramki, bez potrzeby dalszej koordynacji z innymi rdzeniami.