Muszę się upewnić, że moja mapa witryny XML ma mniej niż śmieci (zepsute linki). Lista adresów URL znajduje się w setkach tysięcy i nawet jeśli byłoby możliwe przetestowanie ich wszystkich 1 na 1, wolałbym tego nie robić z wielu powodów:
1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...
Myślę więc, że wybranie losowego podzbioru byłoby wystarczające, problem polega na tym, że nie znam prawdopodobieństw.
Czy mogę skorzystać z prostej funkcji?
Jeśli to pomoże, możemy przypuszczać, że mamy a priori informacje o prawdopodobieństwie zerwania łącza w różnych seriach. Powiedzmy, że w różnych seriach istnieje dla każdego linku, który ma zostać uszkodzony.
Odpowiedzi:
To zależy od rozpowszechnienia twojego wcześniejszego przekonania na temat współczynnika zerwania, ale: około 3600.
Chodzi o to, aby modelować pęknięcia linków jako próbę Bernoulliego i modelować swoje przekonania na temat wskaźnika zerwania jako rozkładu beta. Dystrybucja beta jest sprzężona z dystrybucją Bernoulli , a sposób aktualizacji dystrybucji beta podczas uruchamiania wersji próbnej jest dość prosty:
Więc jeśli zaczniemy odBeta ( 0 , 0 ) dystrybucji i zobacz awarie przez około 75% czasu, ile to zajmie prób, zanim 95% masy dystrybucji spadnie poniżej 0,01? Około 3600.
źródło
Dlan próbki z p = 0,0075 prawdopodobieństwo niepowodzenia, wariancja dla liczby awarii jest n p ( 1 - p ) . Więc używając centralnego twierdzenia o granicy, zZ standardowy normalny,
źródło