Odchylenie w wyborze jury?

14

Przyjaciel reprezentuje klienta w postępowaniu odwoławczym, po procesie karnym, w którym wydaje się, że wybór jury był rasistowski.

Jury składało się z 30 osób, w 4 grupach rasowych. Prokuratura zastosowała stanowcze wyzwania, aby wyeliminować 10 z tych osób z puli. Liczba ludzi i liczba faktycznych wyzwań w każdej grupie rasowej wyniosły odpowiednio:

A: 10, 1
B: 10, 4
C:  6, 4
D:  4, 1
total: 30 in pool, 10 challenges

Oskarżony pochodził z grupy rasowej C, a ofiary z grup rasowych A i D, więc z góry należy zastanowić się, czy grupa C jest nadmiernie kwestionowana, a grupy A i D niedotrzymywana. Prawnie (IIUC; IANAL), obrona nie musi okazać się uprzedzeń rasowych, a jedynie pokazać, że dane wydają się wskazywać nastawienia, które następnie nakłada ciężar na ściganiu się wyjaśnić każde wyzwanie non-rasowo.

Czy poniższe podejście jest prawidłowe w swoim podejściu? (Myślę, że obliczenia są w porządku.):

Istnieją nCr (30,10) = 30,045,015 odrębnych zestawów 10 elementów puli. Z tych odrębnych zestawów liczę, że 433,377 zestawów obejmuje zarówno (nie więcej niż 2 członków grupy A i D łącznie) i (nie mniej niż 4 członków grupy C).

Zatem szansa na osiągnięcie obserwowanego poziomu pozornego uprzedzenia faworyzującego grupy A i D w stosunku do grupy C (gdzie faworyzowanie oznacza brak uwzględnienia w zestawie 10 wyzwań) byłaby ich stosunkiem, 433/30045 = 1,44%.

Zatem hipoteza zerowa (brak takiego uprzedzenia) jest odrzucana na poziomie istotności 5%.

Jeśli ta analiza jest poprawna metodologicznie, jaki byłby najbardziej zwięzły sposób opisania jej w sądzie, w tym referencji akademickich / zawodowych (tj. Nie Wikipedii)? Chociaż argument wydaje się prosty, jak można w sposób najbardziej przejrzysty i zwięzły wykazać przed sądem, że jest słuszny, a nie shenanigans?


Aktualizacja: To pytanie było rozważane jako trzeciorzędny argument w skrócie odwołania. Biorąc pod uwagę złożoność techniczną (z punktu widzenia prawnika) omawianej tutaj dyskusji i widoczny brak precedensu prawnego, prawnik postanowił go nie podnosić, więc w tym momencie pytanie ma głównie charakter teoretyczny / edukacyjny.

Aby odpowiedzieć na jeden szczegół: uważam, że liczba wyzwań, 10, została wcześniej ustalona.

Po przestudiowaniu przemyślanych i trudnych odpowiedzi i komentarzy (dziękuję wszystkim!) Wydaje się, że są tutaj 4 osobne problemy. Przynajmniej dla mnie najbardziej pomocne byłoby rozważenie ich osobno (lub wysłuchanie argumentów, dlaczego nie można ich rozdzielić).

1) Czy rozważenie wyścigów zarówno oskarżonego, jak i ofiar, w ramach zasiadania w ławach przysięgłych, jest kwestią prawną a priori ? Argument apelacyjny miałby jedynie wzbudzić uzasadnione obawy, które mogłyby doprowadzić do wydania przez sąd nakazu podania przyczyny każdego indywidualnego odwołania. Nie wydaje mi się to pytaniem statystycznym, ale społeczno-prawnym, które prawnik może zadać, czy nie.

2) Zakładając (1), czy mój wybór alternatywnej hipotezy (jakościowo: uprzedzenie wobec jurorów, którzy dzielą rasę oskarżonego, na korzyść tych, którzy dzielą rasy ofiar) jest prawdopodobny, czy też jest to niedopuszczalne post hoc ? Z mojego świeckiego punktu widzenia jest to najbardziej kłopotliwe pytanie - tak, oczywiście nie postawiłoby się go, gdyby się go nie zaobserwowało! Problem, jak rozumiem, polega na selekcji: w testach należy wziąć pod uwagę nie tylko tę pulę ławników, ale wszechświat wszystkich puli ławników, w tym wszystkie te, w których obrona nie zaobserwowała rozbieżności i dlatego nie skusiła się do podniesienia problemu . Jak to rozwiązać? (Na przykład, w jaki sposób test Andy'ego rozwiązuje ten problem?) Wydaje się, choć mogę się mylić, że większość respondentów nie niepokoi potencjalnie post-hocJednostronne testy uprzedzeń wyłącznie w stosunku do grupy pozwanego. Czym różni się metodologicznie jednoczesne testowanie uprzedzeń dla grup ofiar, zakładając (1)?

3) Jeśli zastrzegam sobie wybór jakościowej alternatywnej hipotezy, jak podano w (2), to jaka jest odpowiednia statystyka do jej przetestowania? Tutaj najbardziej mnie zastanawiają odpowiedzi, ponieważ zaproponowany przeze mnie stosunek wydaje się być nieco bardziej konserwatywnym analogiem testu Andy'ego dla prostszej hipotezy alternatywnej „stronniczości względem C” (bardziej konserwatywny, ponieważ mój test obejmuje również wszystkie dalsze przypadki) w ogonie, nie tylko dokładnie obserwowana liczba).

Oba testy są prostymi testami zliczającymi, o tym samym mianowniku (ten sam wszechświat próbek) i z licznikami odpowiadającymi dokładnie częstotliwości tych próbek, które odpowiadają odpowiednim alternatywnym hipotezom. Więc @whuber, dlaczego nie jest to tak samo prawdziwe w moim teście liczenia jak w Andym, że „może być oparte na hipotezach zerowych [takich samych] i alternatywnych [jak opisano] i uzasadnionych przy użyciu lematu Neymana-Pearsona”?

4) Jeśli przewiduje się (2) i (3), czy w orzecznictwie znajdują się odniesienia, które przekonałyby sceptyczny sąd apelacyjny? Z dotychczasowych dowodów prawdopodobnie nie. Ponadto na tym etapie odwołania nie ma możliwości „eksperta-świadka”, więc referencje są wszystkim.

JD March
źródło
Pytanie zaktualizowane (dołączone do) po przestudiowaniu odpowiedzi i komentarzy.
JD
Dziękujemy za doskonałe podsumowanie! Aby odpowiedzieć na punkt (3), martwię się, że twój test (jeśli dobrze go rozumiem) przyjmuje alternatywną hipotezę, która była motywowana przez same dane. Wydaje się zatem, że został zbudowany a posteriori, aby wyniki wydawały się jak najmocniejsze. Test oparty na jak najszerszej możliwej do przewidzenia, odpowiedniej klasie alternatywnych a priori , przeprowadzony z regionem odrzucającym Neymana-Pearsona, ma silniejszą logiczną podstawę i jest mniej krytykowany, że mimo to zaproponowano go po zapoznaniu się z danymi.
whuber
Dzięki, @whuber to wiarygodna i pomocna krytyka - bardzo o to pytałem od samego początku. Ale czy nie spowodowałoby to awarii mojego (2), nawet przed (3)? Jeśli tak, to moja (3) wydaje się być nadal bez odpowiedzi - tj. Czy byłaby to dobra statystyka, gdyby tak było (2)?
JD,

Odpowiedzi:

7

Oto jak mogę podejść do odpowiedzi na twoje pytanie przy użyciu standardowych narzędzi statystycznych.

Poniżej znajdują się wyniki analizy probitowej prawdopodobieństwa odrzucenia ze względu na członkostwo w grupie jurorów.

Po pierwsze, oto jak wyglądają dane. Mam 30 obserwacji grupy i binarnie odrzuconego wskaźnika:

. tab group rejected 

           |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
         A |         9          1 |        10 
         B |         6          4 |        10 
         C |         2          4 |         6 
         D |         3          1 |         4 
-----------+----------------------+----------
     Total |        20         10 |        30 

Oto poszczególne efekty marginalne, a także wspólny test:

. qui probit rejected ib2.group

. margins rb2.group

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
       group |
   (A vs B)  |          1        2.73     0.0986
   (C vs B)  |          1        1.17     0.2804
   (D vs B)  |          1        0.32     0.5731
      Joint  |          3        8.12     0.0436
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       group |
   (A vs B)  |        -.3    .181659     -.6560451    .0560451
   (C vs B)  |   .2666667   .2470567     -.2175557     .750889
   (D vs B)  |       -.15   .2662236     -.6717886    .3717886
--------------------------------------------------------------

Tutaj testujemy poszczególne hipotezy, że różnice w prawdopodobieństwie odrzucenia dla grup A, C i D w porównaniu z grupą B wynoszą zero. Gdyby wszyscy byli tak samo odrzuceni jak grupa B, byłoby to zero. Ostatni wynik mówi nam, że przysięgli z grupy A i D rzadziej zostaną odrzuceni, podczas gdy przysięgli z grupy C częściej zostaną odrzuceni. Różnice te nie są statystycznie istotne indywidualnie, chociaż znaki zgadzają się z twoją domniemaniem stronniczości.

p=0,0436


Uzupełnienie:

Jeśli połączę grupy A i D w jedną, ponieważ dzielą rasy ofiar, wyniki probitów stają się silniejsze i mają niezłą symetrię:

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
      group2 |
 (A+D vs B)  |          1        2.02     0.1553
   (C vs B)  |          1        1.17     0.2804
      Joint  |          2        6.79     0.0336
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
      group2 |
 (A+D vs B)  |  -.2571429   .1809595      -.611817    .0975313
   (C vs B)  |   .2666667   .2470568     -.2175557     .750889
--------------------------------------------------------------

Pozwala to również dokładnym wynikom Fishera (choć nadal nie osiągać 5%):

 RECODE of |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
       A+D |        12          2 |        14 
         B |         6          4 |        10 
         C |         2          4 |         6 
-----------+----------------------+----------
     Total |        20         10 |        30 

          Pearson chi2(2) =   5.4857   Pr = 0.064
           Fisher's exact =                 0.060
Dimitriy V. Masterov
źródło
Dzięki, bardzo mile widziane! Czy mógłbyś mi pomóc tutaj zrozumieć problemy metodologiczne? W szczególności: (1) testy porównania pośredniego (IIUC) pomimo szczególnych obaw a priori oraz (2) powody, dla których warto zastosować test, który zakłada założenia dystrybucji, a nie tylko argumenty kombinatoryczne?
JD
Nie jestem pewien, czy rozumiem (1). Dla (2) otrzymuję bardzo podobne wyniki z modelem logit, który przyjmuje różne założenia dystrybucyjne, więc jest pewna solidność. Nie ma wystarczającej ilości danych, aby zrobić coś mniej parametrycznego, chociaż może to być moja własna ignorancja w tej dziedzinie.
Dimitriy V. Masterov
1
Re (1). Chodzi mi o to - wydaje się, że twój test jest 2-ogonowy, podczas gdy problem a priori pozwoliłby na 1-ogon?
JD Marzec
1
Aspektem tej analizy, która mnie niepokoi, jest to, że jego pozorne znaczenie (w każdym razie na poziomie 5%) wynika nie tylko z wyzwań pojawiających się w grupie C, ale również z względnego niedoboru wyzwań w grupie A. To ostatnie wydawałoby się być nieistotnym: czy podejrzewano by to z góry ? Uprzywilejowana rola grupy C jest oczywista (w dopasowaniu do grupy pozwanego), ale uprzywilejowana rola dla każdej innej grupy - lub nawet (hipotetycznie) oczywistych nierówności między innymi grupami - wydaje się nie mieć wpływu na roszczenie pozwanego o dyskryminacja ich ze względu na ich grupę .
whuber
BTW, wygląda na to, że przeprowadziłeś analizę grupy B zamiast grupy C.
whuber
3

Sądzę, że wprowadzenie metody statystycznej ad hoc nie będzie stanowiło problemu dla sądu. Lepiej jest stosować metody, które są „standardową praktyką”. W przeciwnym razie prawdopodobnie udowodnisz swoje kwalifikacje do opracowania nowych metod.

Mówiąc ściślej, nie sądzę, aby twoja metoda spełniała standard Daubert. Wątpię również, aby twoja metoda była sama w sobie odniesieniem akademickim. Prawdopodobnie musiałbyś pójść drogą zatrudniania eksperta w dziedzinie statystyki, aby go wprowadzić. Myślę, że łatwo byłoby temu przeciwdziałać.

Podstawowe pytanie tutaj jest prawdopodobne: „Czy wyzwanie jury było niezależne od grup rasowych?”

χ2

> M <- as.table(cbind(c(9, 6, 2, 3), c(1, 4, 4, 1)))
> dimnames(M) <- list(Group=c("A", "B", "C", "D"), Challenged=c("No", "Yes"))
> M
     Challenged
Group No Yes
    A  9   1
    B  6   4
    C  2   4
    D  3   1

> chisq.test(M)

        Pearson's Chi-squared test

data:  M
X-squared = 5.775, df = 3, p-value = 0.1231

Warning message:
In chisq.test(M) : Chi-squared approximation may be incorrect

Korzystanie z dokładnego testu Fishera daje podobne wyniki:

> fisher.test(M)

        Fisher's Exact Test for Count Data

data:  M
p-value = 0.1167
alternative hypothesis: two.sided

2×2

Moja interpretacja jest taka, że ​​nie ma zbyt wielu dowodów na poparcie uprzedzeń rasowych.

jvbraun
źródło
1
χ2
Dzięki, @jvbraun, twoja opinia na temat braku ad hoc metod wydaje się przekonywująca; choć liczenie i dzielenie nie wydaje mi się szczególnie ekscentryczne, wyraźnie inni nie uważają tego za przekonujące!
JD Marzec
Jest to w rzeczywistości jeden z przypadków, w których marginesy są ustalone, więc dokładny test Fishera powinien być dla wielu smaczniejszy. W dyskusji na temat Daubert masz to trochę za bardzo, gdy zadzwonisz do eksperta, wówczas podlegają one ruchowi Daubert. (Jak na ironię, niektórzy twierdzili, że laicy prezentujący statystyki nie podlegają takim ocenom podyktowanym przez art. 702.) IMO wszystkie przedstawione tu argumenty są dobrze wyartykułowane i jest mało prawdopodobne, aby zostały uznane za niedopuszczalne. Wątpię, czy którakolwiek z tych technik statystycznych ma orzecznictwo w tych szczególnych okolicznościach.
Andy W
χ2
χ22/24/6
3

Zadałem podobne pytanie wcześniej (dla porównania tutaj jest szczególnym przypadkiem omówię). Obrona musi po prostu pokazać przypadek prima facia dyskryminacji w wyzwaniach Batsona (zakładając, że prawo karne Stanów Zjednoczonych) - więc testy hipotez są prawdopodobnie większym obciążeniem niż jest to konieczne.

Więc dla:

  • n=30
  • p=6
  • k=4
  • d=10

Poprzednia odpowiedź Whubera podaje prawdopodobieństwo, że ten konkretny wynik będzie podyktowany rozkładem hipergeometrycznym :

(pk)(npdk)(nd)

To, co według Wolfram-Alpha jest równe w tym przypadku:

(64)(306104)(3010)=7611310.07

Niestety nie mam referencji poza linkami, które podałem - wyobrażam sobie, że możesz wykopać odpowiednie referencje dla rozkładu hipergeometrycznego ze strony Wikipedii.

Ignoruje to pytanie, czy grupy rasowe A i D są „niedoceniane”. Jestem sceptyczny, że możesz uzasadnić to prawnie - byłoby dziwnym zwrotem klauzuli o równej ochronie. Ta konkretna grupa jest zbyt chroniona! , że nie sądzę, by latał. (Nie jestem jednak prawnikiem - więc weź trochę ziarenka soli).

(3010)χ2


Zaktualizowałem niektóre moje myśli w poście na blogu . Mój post dotyczy Wyzwań Batsona, więc nie jest jasne, czy szukasz innej sytuacji (aktualizacje dla 1 i 2 nie mają sensu w kontekście Wyzwań Batsona).

Udało mi się znaleźć jeden powiązany artykuł (dostępny w całości pod linkiem):

Gastwirth, JL (2005). Komentarz do sprawy: testy statystyczne do analizy danych dotyczących stanowczych wyzwań: wyjaśnienie standardu dowodu potrzebnego do ustalenia przypadku dyskryminacji prima facie w sprawie Johnson przeciwko Kalifornii. Prawo, prawdopodobieństwo i ryzyko , 4 (3), 179–185.

To dało tę samą sugestię do zastosowania rozkładu hipergeometrycznego. W moim poście na blogu pokazuję, że jeśli podzielisz kategorie na dwie grupy, jest to odpowiednik dokładnego testu Fishera.

kk=5k=6nnd

Jeśli ktoś dowie się o orzecznictwie, które faktycznie korzysta z tego (lub czegokolwiek poza ułamkami), byłbym zainteresowany.

Andy W.
źródło
1
Dzięki, Andy. (1) Mój przyjaciel prawnika uważa za całkowicie akceptowalne / użyteczne stwierdzenie, że C było nadmiernie kwestionowane, a A niedostatecznie kwestionowane. (2) Mówisz „jaka statystyka testowa”. Uważam to za mylące - jakiej statystyki testowej używasz, gdy obliczasz 0,07 za pomocą hipergeometru? To, co robi, to obliczenie prawdopodobieństwa jako stosunek spraw podejrzanych do wszystkich przypadków. Podobnie właśnie robi moja analiza, z wyjątkiem definiowania podejrzanych przypadków bardziej zawężająco niż ty.
JD,
@JathanathanMarch - Nie używam statystyk testowych. Jest to prawdopodobieństwo losowego wyboru 4 z 6 klasy C (biorąc pod uwagę inne warunki) zgodnie z rozkładem hipergeometrycznym. Rozumiem motywację do testów kierunkowych, ale nie jest to zwykły przypadek testu t. W takim przypadku masz ciągły rozkład zerowy, więc aby podać wartość p, musisz zdefiniować alternatywę jako obszar. Nie ma domyślnej potrzeby robienia tego z dystrybucją PMF, jak tutaj.
Andy W
1
k=5k=60.07
1
86/11317.6%
1
Jonathan, dla twojej korzyści dam ci trudność (tak jak zrobiłby to ekspert od opozycji). Uważam, że twoje podejście jest nieprawidłowe, ponieważ używasz statystyk ad hoc bez teoretycznego uzasadnienia; wydaje się, że jest skonstruowany wyłącznie w celu uzyskania małej wartości p. Statystyka Andy'ego może być oparta na założonych hipotezach zerowych i alternatywnych oraz uzasadniona za pomocą lematu Neymana-Pearsona. Twoja statystyka wydaje się opierać na post hoc wyników i nie wydaje się, aby odpowiadała jakiejkolwiek alternatywnej hipotezie, która zostałaby postawiona przed (tj. Niezależnie) przed nami .
whuber
0

Nie zapomnijmy o problemie z wielokrotnym testowaniem. Wyobraź sobie 100 prawników zajmujących się obroną, którzy szukają podstaw do odwołania. Wszystkie odrzucenia przysięgłych zostały wykonane przez przerzucanie monet lub rzucanie kostkami dla każdego przyszłego przysięgłego. Dlatego żadne z odrzuceń nie było stronnicze.

Każdy ze 100 prawników wykonuje teraz test statystyczny, na który wszyscy się zgadzacie. Mniej więcej pięć na 100 odrzuca hipotezę zerową „bezstronny” i ma podstawy do odwołania.

Emil Friedman
źródło
IIUC, szukaliby powodów, dla których sędzia nakazałby zbadanie przyczyn każdego indywidualnego odrzucenia. Czy rzeczywiście byłoby problem, gdyby takie badanie miało miejsce w 5 z tych 100 przypadków?
JD,