Taryfy lotnicze - Jaką analizę należy zastosować, aby wykryć konkurencyjne zachowanie przy ustalaniu cen i korelacje cenowe?

12

Chcę zbadać zachowanie linii lotniczych w zakresie ustalania cen - w szczególności sposób, w jaki linie lotnicze reagują na ceny konkurentów.

Ponieważ powiedziałbym, że moja wiedza na temat bardziej złożonych analiz jest dość ograniczona, zrobiłem głównie wszystkie podstawowe metody, aby zebrać ogólny widok danych. Obejmuje to proste wykresy, które już pomagają zidentyfikować podobne wzorce. Używam również SAS Enterprise 9.4.

Jednak szukam podejścia bardziej opartego na liczbach.

Zbiór danych

(Własny) zestaw danych, z którego korzystam, zawiera około ~ 54 000 taryf. Wszystkie taryfy były pobierane w 60-dniowym przedziale czasowym, codziennie (co noc o 00:00).Metoda odbioru

W związku z tym każda taryfa w tym przedziale czasowym występuje razy, w zależności od dostępności taryfy, a także daty wylotu lotu, kiedy upłynie termin jej odbioru. (Nie możesz odebrać taryfy za lot, gdy data wylotu tego lotu jest w przeszłości)n

Niesformatowany, który wygląda w zasadzie tak: (fałszywe dane)

+--------------------+-----------+--------------------+--------------------------+---------------+
| requestDate        | price| tripStartDeparture | tripDestinationDeparture | flightCarrier |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 725.32    | 16APR2015:10:50:02 | 23APR2015:21:55:04       | XA            |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 966.32    | 16APR2015:13:20:02 | 23APR2015:19:00:04       | XY            |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 915.32    | 16APR2015:13:20:02 | 23APR2015:21:55:04       | XH            |
+--------------------+-----------+--------------------+--------------------------+---------------+

„DaysBeforeDeparture” oblicza się za pomocą gdzieI=sc

  • I i odstęp (dni przed odlotem)
  • s i data taryfy (odlot)
  • c i data, z której opłata została pobrana

Oto przykład zgrupowanych danych ustawionych przez I (DaysBeforeDep.) (Fałszywe dane!):

+-----------------+------------------+------------------+------------------+------------------+
| DaysBefDeparture | AVG_of_sale | MIN_of_sale | MAX_of_sale | operatingCarrier |
+-----------------+------------------+------------------+------------------+------------------+
| 0               | 880.68           | 477.99           | 2,245.23         | DL           |
+-----------------+------------------+------------------+------------------+------------------+
| 0               | 904.89           | 477.99           | 2,534.55         | DL           |
+-----------------+------------------+------------------+------------------+------------------+
| 0               | 1,044.39         | 920.99           | 2,119.09         | LH               |
+-----------------+------------------+------------------+------------------+------------------+

Co do tej pory wymyśliłem

Patrząc na wykresy liniowe, mogę już oszacować, że kilka linii będzie miało wysoki współczynnik korelacji. Dlatego najpierw spróbowałem użyć analizy korelacji na zgrupowanych danych. Ale czy to właściwy sposób? Zasadniczo próbuję teraz dokonać korelacji na podstawie średnich, a nie poszczególnych cen? Czy jest inny sposób?

Nie jestem pewien, który model regresji pasuje tutaj, ponieważ ceny nie zmieniają się w żadnej formie liniowej i wydają się nieliniowe. Czy musiałbym dopasować model do każdej zmiany cen linii lotniczej

PS: To jest długa ściana tekstowa. Jeśli muszę coś wyjaśnić, daj mi znać. Jestem nowy w tym sub.

Ktoś może podpowiedzieć? :-)

s1x
źródło

Odpowiedzi:

9

Słowo ostrzeżenia od byłego analityka ds. Zarządzania przychodami z linii lotniczej: może to być podejście do niewłaściwego drzewa. Przepraszamy za poniższą ścianę tekstu, ale te dane są o wiele bardziej złożone i głośne, niż mogłoby się to wydawać na pierwszy rzut oka, dlatego chcieliśmy przedstawić krótki opis sposobu ich generowania; ostrzeżony jest uzbrojony.

Taryfy lotnicze zawierają dwa elementy: wszystkie aktualne taryfy (wraz z zasadami taryfowymi i tym, co masz), które linie lotnicze mają do dyspozycji na określonej trasie, z których większość jest opublikowana przez Airline Tariff Publishing Company (kilka z nich ma specjalne zastosowanie) nie, ale są to raczej wyjątek niż reguła) i faktyczne zarządzanie zapasami wykonywane przez linię lotniczą na co dzień.

Taryfy można przesyłać do ATPCO cztery razy dziennie, w ustalonych odstępach czasu, a kiedy linie lotnicze to robią, zwykle składają się z kombinacji dodatków, skasowań i modyfikacji istniejących taryf. Kiedy linia lotnicza inicjuje wycenę (zakładając, że konkurenci nie próbują tu wykonać własnych ruchów), zwykle musi poczekać do następnej aktualizacji, aby sprawdzić, czy konkurenci śledzą / reagują. Odwrotna sytuacja ma miejsce, gdy konkurent inicjuje wycenę, ponieważ linia lotnicza musi poczekać do następnej aktualizacji, zanim będzie mogła odpowiedzieć.

Teraz wszystko jest dobrze w odniesieniu do taryf, ale problem polega na tym, że ponieważ wszystko to jest publikowane w ATPCO, taryfy są kolejną najlepszą rzeczą do informacji publicznej ... wszyscy twoi konkurenci mogą zobaczyć, co masz dostałeś się do swojego arsenału, więc próby zaciemnienia nie są niespotykane, takie jak publikowanie taryf, które nigdy nie zostaną faktycznie przypisane żadnym zasobom reklamowym, wymieniając wszystkie taryfy jako dzień wyjazdu itp.

Pod wieloma względami tajny sos sprowadza się do faktycznego przydziału zapasów, tj. Ile miejsc w każdym locie będziesz gotów sprzedać za daną taryfę, a ta informacja nie jest publicznie dostępna. Możesz uzyskać pewne informacje, skrobiąc informacje w Internecie, ale potencjalne kombinacje godziny / daty odlotu i zasad taryfy są dość liczne i mogą szybko wzrosnąć poza Twoją zdolność do łatwego śledzenia.

Zazwyczaj linie lotnicze będą skłonne sprzedać garść miejsc za bardzo niską taryfę, a osoby, które się na nie zaczepią, muszą dokonać rezerwacji z dużym wyprzedzeniem, aby zasady taryfowe nie zablokowały ich lub inni podróżnicy po prostu ich nie pobili. Linia lotnicza będzie skłonna sprzedać kilka dodatkowych miejsc za wyższą cenę, i tak dalej. Z przyjemnością sprzedadzą wszystkie miejsca za najwyższą cenę, jaką opublikowali, ale zazwyczaj nie jest to możliwe.

To, co widzisz, gdy ceny biletów rosną, im bardziej zbliżasz się do dnia wyjazdu, jest po prostu naturalnym procesem rezerwowania tanich miejsc dalej, podczas gdy pozostałe zapasy stopniowo stają się droższe. Oczywiście są tutaj pewne zastrzeżenia. Proces zarządzania ryzykiem jest aktywnie zarządzany, a interwencja człowieka jest dość powszechna, ponieważ zespół ds. Zarządzania ryzykiem zazwyczaj dąży do osiągnięcia swoich celów dotyczących przychodów i maksymalizacji przychodów z każdego lotu. W związku z tym loty, które szybko się zapełniają, mogą zostać „zaostrzone” przez zamknięcie niskich cen biletów. Loty, które rezerwują powoli, mogą zostać „rozluźnione” przez przydzielenie większej liczby miejsc do niższych taryf.

W tym obszarze istnieje ciągła współpraca i konkurencja między liniami lotniczymi, ale nie jest prawdopodobne, aby uchwycić rzeczywistą dynamikę po skrobaniu taryf. Nie zrozumcie mnie źle, mieliśmy do dyspozycji takie narzędzia i pomimo ich ograniczeń były dość cenne, ale były tylko jednym źródłem danych, które przyczyniło się do procesu decyzyjnego. Potrzebny byłby dostęp do setek, jeśli nie tysięcy decyzji operacyjnych podejmowanych codziennie przez zespoły RM, a także do aktualnych informacji, jakie widzą w tym czasie. Jeśli nie możesz znaleźć partnera linii lotniczych do współpracy w celu uzyskania tych danych, być może trzeba rozważyć alternatywne źródła danych.

Polecam zbadanie dostępu do danych taryfowych O&D z oficjalnego przewodnika lotniczego (lub jednego z ich konkurentów) i spróbuję wykorzystać je do analizy. Jest oparty na próbkach (około 10% wszystkich sprzedanych biletów) i sumowany na wyższym poziomie niż byłby idealny, więc konieczny jest ostrożny wybór trasy (polecam coś z dużą liczbą linii lotniczych, latających non-stop wiele razy dziennie, z duże samoloty), ale możesz uzyskać lepszy obraz tego, co zostało faktycznie sprzedane (średnia taryfa) i ile zostało sprzedane (współczynnik obciążenia), a nie tylko tego, co jest dostępne do sprzedaży w danym momencie. Korzystając z tych informacji, możesz mieć lepszą pozycję, aby przynajmniej zbadać wyniki strategii cenowej linii lotniczych i wyciągnąć z niej wnioski.

habu
źródło
Dziękuję za dokładne wyjaśnienie. Zgadzam się z Tobą, że taka analiza oparta tylko na cenach jest dość ograniczona. Obejmuje to również w szczególności zasady taryfowe (bilety podlegające zwrotowi, minimalny pobyt itp.) Niektóre z tych ograniczeń można obejść, zbierając zawsze takie same taryfy, aby zapewnić porównywalność. Jednak ważną informacją - jak wspomniałeś, brakuje dostępnej liczby miejsc (może być! = Miejsc w samolocie) i faktycznej ilości sprzedanych biletów.
s1x
Dostęp do takich danych jest bardzo ograniczony, a jeśli nieaktualny (np. Databank 1B z US DOT). Niektóre badania, takie jak Clark R. i Vincent N. (2012) Link do ustalania cen zależnych od pojemności [...] zawierają takie dane i oferują znacznie lepszy wgląd. Mam świadomość ograniczeń (mam nadzieję ;-)) i jak wspomniałeś, ponieważ na ceny wpływa znacznie więcej informacji. Mimo to obserwując konkretny rynek, możesz poczuć, co się dzieje. Możesz sprawdzić, czy istnieje jakieś konkurencyjne zachowanie i różne strategie cenowe. Jednak nigdy nie będziesz w stanie znaleźć przyczyny.
s1x
1
@ s1x - Zgadzam się i chciałbym mieć solidną alternatywę do zaoferowania, ale, jak sam się nauczyłeś, szczegółowe dane o przychodach są najbardziej zazdrośnie strzeżoną tajemnicą w każdej linii lotniczej. Chciałem tylko upewnić się, że wiesz o tym i co dzieje się w procesie generowania danych. Poza tym podoba mi się to, co próbujesz zrobić i myślę, że druga odpowiedź jest krokiem we właściwym kierunku, pod względem technicznym. Jeśli mogę zasugerować, możesz również przyjrzeć się stosowaniu korelacji krzyżowej między różnymi TS podczas eksploracji danych, ponieważ często jest to cenne dla rozróżniania wzorców między połączonymi TS.
habu
4

Oprócz eksploracyjnej analizy danych (EDA), zarówno opisowej, jak i wizualnej, spróbowałbym wykorzystać analizę szeregów czasowych jako bardziej kompleksową i wyrafinowaną analizę. W szczególności wykonałbym analizę regresji szeregów czasowych . Analiza szeregów czasowych to ogromna dziedzina badań i praktyki, więc jeśli nie znasz podstaw, sugeruję zacząć od wyżej wymienionego artykułu w Wikipedii, stopniowo szukając bardziej szczegółowych tematów i czytając odpowiednie artykuły, artykuły i książki.

Ponieważ analiza szeregów czasowych jest bardzo popularnym podejściem, jest obsługiwana przez większość komercyjnych i otwartych źródeł danych naukowych i środowisk statystycznych (oprogramowania) , takich jak R , Python , SAS , SPSS i wiele innych. Jeśli chcesz użyć do tego R , sprawdź moje odpowiedzi na temat ogólnej analizy szeregów czasowych oraz klasyfikacji i grupowania szeregów czasowych . Mam nadzieję, że to jest pomocne.

Aleksandr Blekh
źródło
Dziękuję za odpowiedź @Aleksandr Blekh - naprawdę doceniony. Zrobię to od razu. Może głupie pytanie, ale proszę o poprawienie tutaj, jeśli się tu mylę: analiza korelacji, przy użyciu jednej linii lotniczej jako zmiennej do korelacji. Dotychczasowe wyniki były przekonujące, ponieważ niektóre linie lotnicze espc. ci, którzy mieli umowy code-share, mieli podobne ceny. Czy takie wysokie korelacje np .: ColumnUA(LH) 0.90435 <.0001 ColumnSQ 0.32544 <.0001 ColumnAF(DL) 0.55336 <.0001 Zakładam, że takie wyniki wskazują na podobne wzorce cenowe. Co mogę się dowiedzieć z analizą regresji?
s1x
@ s1x: Nie ma za co (głosuj pozytywnie / akceptuj, jeśli cenisz odpowiedź i oczywiście, kiedy zyskasz wystarczającą reputację). Teraz przejdź do twojego pytania. Jak powiedziałem, analiza TS jest bardziej wyrafinowana i kompleksowa. W szczególności regresja TS uwzględnia tzw. Autoregresję i inne złożoności TS. Stąd moja propozycja zastosowania analizy regresji TS zamiast prostszej tradycyjnej. Ponadto zawsze powinieneś zacząć od EDA, bez względu na to, jaką analizę danych planujesz przeprowadzić (w rzeczywistości EDA często zmienia twoje plany).
Aleksandr Blekh