Statystyki i duże zbiory danych

28
Co kryje się za interfejsem API Google Prediction?

Google Prediction API to usługa w chmurze, w której użytkownik może przesłać dane szkoleniowe, aby wyszkolić tajemniczego klasyfikatora, a następnie poprosić go o klasyfikację danych przychodzących, na przykład w celu wdrożenia filtrów spamu lub przewidzenia preferencji użytkownika. Ale co jest za...

28
Dostosowanie odległości Kullback-Leibler?

Spójrz na ten obrazek: Jeśli wyciągniemy próbkę z gęstości czerwonej, wówczas oczekuje się, że niektóre wartości będą mniejsze niż 0,25, podczas gdy niemożliwe jest wygenerowanie takiej próbki z rozkładu niebieskiego. W konsekwencji odległość Kullbacka-Leiblera od gęstości czerwonej do gęstości...

28
Problemy z wykresami kołowymi

Wydaje się, że rośnie liczba dyskusji na temat wykresów kołowych. Głównymi argumentami przeciwko temu wydają się: Obszar jest postrzegany z mniejszą mocą niż długość. Wykresy kołowe mają bardzo niski stosunek danych do punktu pikseli Myślę jednak, że mogą one być w jakiś sposób przydatne przy...

28
Obliczanie powtarzalności efektów z modelu Lmer

Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc =...

28
Samokształcenie a nauczana edukacja?

Istnieje pytanie o podobnym przeznaczeniu na programmers.SE . To pytanie ma kilka całkiem dobrych odpowiedzi, ale ogólny temat wydaje się być taki, że bez samokształcenia nie ma miejsca. Oczywiście istnieje pewna znacząca różnica między programowaniem a statystyką - dzięki programowaniu naprawdę...