Czy niektórzy z was używają arkusza kalkulacyjnego Dokumentów Google do prowadzenia i udostępniania swojej pracy statystycznej innym?

Wiem, że większość z was prawdopodobnie uważa, że Dokumenty Google są nadal prymitywnym narzędziem. To nie jest Matlab ani R, a nawet Excel. Jestem jednak zaskoczony mocą tego oprogramowania internetowego, które korzysta tylko z możliwości działania przeglądarki (i jest kompatybilne z wieloma przeglądarkami, które działają zupełnie inaczej).

Aktywny na tym forum Mike Lawrence udostępnił nam arkusz kalkulacyjny, korzystając z Dokumentów Google, robiąc z nim całkiem wymyślne rzeczy. Osobiście odtworzyłem dość dokładną strukturę testowania hipotez (w tym liczne testy parametryczne i nieparametryczne) pierwotnie wykonane w programie Excel w Dokumentach Google.

Interesuje mnie, czy ktoś z was wypróbował Dokumenty Google i podniósł go do granic możliwości w ciekawych aplikacjach. Chciałbym również dowiedzieć się o błędach lub wadach, które napotkałeś w Dokumentach Google

Oznaczam to pytanie „dla społeczności wiki”, co oznacza, że nie ma na to najlepszych odpowiedzi. To bardziej ankieta niż cokolwiek innego.

software computational-statistics lew getański
źródło

Czy możesz podać link do arkusza kalkulacyjnego udostępnionego przez Mike'a Lawrence'a?

Andy W

Oto adres URL spreadsheets.google.com/… To było związane z jego pytaniem stats.stackexchange.com/questions/2956/…

Sympa

Dokumenty Google, gdy zostały formalnie przetestowane, źle wykonały większość obliczeń statystycznych (o ile w ogóle mogły to zrobić). Patrz Kellie B. Keeling i Robert J. Pavur (2011): Dokładność statystyczna oprogramowania arkusza kalkulacyjnego, The American Statistician, 65: 4, 265-273

whuber

Odpowiedzi:

Moim głównym zastosowaniem w arkuszach kalkulacyjnych Google były formularze Google, do zbierania danych, a następnie łatwego importowania ich do R. Oto post, który napisałem o tym pół roku temu:

Arkusze kalkulacyjne Google + formularze google + R = Łatwe zbieranie i importowanie danych do analizy

Ponadto, jeśli chcesz współpracować, moim narzędziem wyboru jest DropBox. Kilka miesięcy temu napisałem o tym post:

Synchronizacja plików między komputerami za pomocą DropBox

Używam go od około pół roku w projekcie z 5 współautorami i był nieoceniony (synchronizowanie plików danych od 3 autorów, wszyscy mogą zobaczyć najnowszą wersję produkowanych przeze mnie wyników i wszyscy szukają w tym samym pliku docx dla artykułu).

Oba posty zawierają samouczki wideo i instrukcje ustne.

Tal Galili
źródło

Dziękuję za twój komentarz. Właśnie tego typu komentarze mnie interesowały. Naprawdę wykorzystałeś funkcję udostępniania i importowania dokumentów Google. Dobrze dla ciebie. Przeczytam twój materiał, aby dowiedzieć się więcej na ten temat.

Sympa

Drogi Gaetanie, jestem zachwycony twoją odpowiedzią - dziękuję za miłe słowa. Best, Tal.

Tal Galili

Jako entuzjasta użytkowników R, bash, Python, asciidoc, (La) TeX, oprogramowania open source lub jakichkolwiek narzędzi un * x, nie mogę zapewnić obiektywnej odpowiedzi. Co więcej, jak często argumentuję przeciwko używaniu MS Excel lub jakiegokolwiek arkusza kalkulacyjnego (no cóż, widzisz swoje dane lub ich część, ale co jeszcze?), Nie przyczyniłbym się pozytywnie do debaty. Nie jestem jedyny, np

Uzależnienie od arkusza kalkulacyjnego , od P. Burns.
Precyzja i dokładność MS Excel , post na liście mailingowej R.
L. Knusel, O dokładności rozkładów statystycznych w Microsoft Excel 97 , Statystyka obliczeniowa i analiza danych, 26: 375–377, 1998. ( pdf )
BD McCullough i B. Wilson, O dokładności procedur statystycznych w Microsoft Excel 2000 i Excel XP , Statystyka obliczeniowa i analiza danych , 40: 713–721, 2002.
M. Altman, J. Gill i poseł McDonald, Zagadnienia numeryczne w obliczeniach statystycznych dla naukowca społecznego , Wiley, 2004. [np. S. 12–14]

Mój kolega stracił wszystkie swoje makra z powodu braku kompatybilności wstecznej itp. Inny kolega próbował zaimportować dane genetyczne (około 700 badanych genotypowanych na 800 000 markerach, 120 miesięcy), tylko po to, by „na nie spojrzeć”. Excel zawiódł, Notatnik też się poddał ... Jestem w stanie „spojrzeć na nie” za pomocą vi i szybko sformatować dane za pomocą skryptu sed / awk lub perl. Myślę więc, że przy omawianiu przydatności arkuszy kalkulacyjnych należy wziąć pod uwagę różne poziomy. Albo pracujesz na małych zestawach danych i chcesz zastosować tylko elementarne dane statystyczne i być może jest to w porządku. Następnie to do ciebie należy zaufanie wyników lub zawsze możesz poprosić o kod źródłowy, ale być może łatwiej byłoby wykonać szybki test wszystkich procedur wbudowanych z testem porównawczym NIST. Nie sądzę, że odpowiada to dobremu sposobowi tworzenia statystyk po prostu dlatego, że nie jest to prawdziwe oprogramowanie statystyczne (IMHO), chociaż jako aktualizacja wyżej wymienionej listy, nowsze wersje MS Excel wydają się wykazywać poprawę w zakresie dokładności dla analizy statystyczne, patrz Keeling i Pavur, Badanie porównawcze rzetelności dziewięciu pakietów oprogramowania statystycznego ( CSDA 2007 51: 3811).

Mimo to około jeden na 10 lub 20 artykułów (w biomedycynie, psychologii, psychiatrii) zawiera grafiki wykonane w programie Excel, czasem bez usuwania szarego tła, poziomej czarnej linii lub automatycznej legendy (Andrew Gelman i Hadley Wickham z pewnością są tak szczęśliwi jak ja, kiedy to widzę). Ale ogólnie rzecz biorąc, jest to najczęściej używane „oprogramowanie” według niedawnej ankiety na FlowingData, która przypomina mi starą rozmowę Briana Ripleya (który jest współautorem pakietu MASS R i pisze doskonałą książkę na temat rozpoznawania wzorców , pośród innych):

Nie oszukujmy się: najczęściej używanym oprogramowaniem do statystyk jest Excel (B. Ripley przez Jan De Leeuw), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf

Teraz, jeśli uważasz, że zapewnia to szybki i łatwiejszy sposób na wykonanie statystyk, dlaczego nie? Problem polega na tym, że wciąż są rzeczy, których nie da się zrobić (a przynajmniej jest to dość trudne) w takim środowisku. Myślę o bootstrapie, permutacji, analizie danych eksploracyjnych na wielu odmianach, by wymienić tylko kilka. O ile nie jesteś biegły w VBA (który nie jest ani skryptem, ani językiem programowania), jestem skłonny myśleć, że nawet niewielkie operacje na danych są lepiej obsługiwane w R (lub Matlab lub Python, pod warunkiem, że masz odpowiednie narzędzie do radzenia sobie z nimi z np. tak zwaną ramką danych). Przede wszystkim uważam, że Excel nie promuje bardzo dobrych praktyk dla analityka danych (ale dotyczy to również każdego „klikodromu”, patrz dyskusja na temat Medstats na temat potrzeby prowadzenia rejestru przetwarzania danych,Dokumentowanie analiz i edycji danych ). Znalazłem ten post w statystykach praktycznych, który ilustruje niektóre pułapki w programie Excel. Mimo to dotyczy Excela, nie wiem jak to tłumaczy na GDocs.

Jeśli chodzi o dzielenie się swoją pracą, myślę, że Github (lub Gist dla kodu źródłowego) lub Dropbox (chociaż umowa EULA może zniechęcić niektórych ludzi) to bardzo dobre opcje (historia zmian, zarządzanie dotacjami w razie potrzeby itp.). Nie mogę zachęcić do korzystania z oprogramowania, które zasadniczo przechowuje dane w formacie binarnym. Wiem, że można go zaimportować w R, Matlab, Stata, SPSS, ale moim zdaniem:

dane powinny ostatecznie mieć format tekstowy, który może być odczytany przez inne oprogramowanie statystyczne;
analiza powinna być odtwarzalna, co oznacza, że powinieneś dostarczyć kompletny skrypt do analizy i powinien on zostać uruchomiony (zbliżamy się do idealnego przypadku w pobliżu tutaj ...) w innym systemie operacyjnym w dowolnym momencie;
twoje własne oprogramowanie statystyczne powinno implementować uznane algorytmy i powinien istnieć łatwy sposób na aktualizację, aby odzwierciedlić obecne najlepsze praktyki w modelowaniu statystycznym;
wybrany przez ciebie system udostępniania powinien obejmować funkcje kontroli wersji i współpracy.

Otóż to.

chl
źródło

@Gaetan Oprócz mojej odpowiedzi, dałem +1 temu pytaniu, ponieważ uważam, że jest to bardzo istotne w debacie na temat praktyki statystycznej i zarządzania projektami.

chl

Komentarz do opinii byłby bardzo mile widziany.

chl

@chl: chociaż nie głosowałem za tą odpowiedzią, myślę, że rozumiem, dlaczego ktoś głosowałby za nią. Podane informacje są poprawne, bardzo ważne i skłaniają do myślenia. JEDNAK większość z nich (z wyjątkiem dwóch ostatnich akapitów) nie odpowiada na pytanie. Idealnie byłoby napisać to duże zastrzeżenie gdzie indziej i podać link do niego.

Boris Gorelik,

@chl: pomimo tego, co powiedziałem w moim komentarzu, uwielbiam twoją odpowiedź i głosuję za nią

Boris Gorelik

@bgbg Dziękujemy za komentarz. Może nie odpowiedziałem na pytanie CW. Nigdy jednak nie zamierzałem udzielać odpowiedzi wyłącznie prowokującej. OP zapytał o potencjalne „błędy i wady” w GDocs: dostarczam ilustracje o tym, co wiem z Excela, potwierdzając fakt, że nie wiem, jak to przełoży się na GDocs. Rozumiem również część pytania jako „jakie są zalety korzystania z GDocs do analizy danych” i po prostu podałem kilka argumentów przeciwko zastosowaniu arkusza kalkulacyjnego do dużych projektów lub analiz na najwyższym poziomie (mimo to przyznałem na początku byłoby to stronnicze).

chl

„Chciałbym również dowiedzieć się o błędach lub wadach, które napotkałeś w Dokumentach Google”.

Odpowiem tylko na tę część pierwotnego pytania. Moje eksploracje Arkuszy kalkulacyjnych Dokumentów Google (GSheets) dotyczyły funkcji matematycznych i statystycznych. Ostatecznie oceniam, że arkusze kalkulacyjne Google są pod tym względem znacznie gorsze od złośliwego programu Excel z 1997 r.

Świadek: Arkusze Google najwyraźniej oceniają erfc (x) za pomocą erfc (x) = 1-erf (x) dla argumentów, dla których erf (x) jest bliskie 1. Oceniają odchylenie standardowe lub wariancję za pomocą średniej kwadratów minus kwadrat średniej; to zła praktyka numeryczna. Funkcje kombinatoryczne i prawdopodobieństwa dyskretne, takie jak poisson (n, x) = pow (x, n) * exp (-x) / n! są oceniane czynnik po czynniku, powodując niepotrzebne przepełnienie. Silnia jest oceniana przy użyciu przybliżenia Stirlinga czynnik po czynniku, powodując dalsze niepotrzebne przepełnienie. Skumulowany rozkład Poissona jest oceniany po prostu przez skończoną sumę, więc właściwość normalizacyjna zostaje utracona w zaokrągleniu; to samo dotyczy skumulowanego rozkładu dwumianowego. Skumulowany rozkład normalny jest całkowicie pomieszany; wykracza poza zakres [0,1]. Występuje ogólna utrata dokładności w stosunku do implementacji tych samych funkcji w innych pakietach. Opisy podstawowych funkcji, takich jak zaokrąglanie, są często zniekształcone i niezrozumiałe; interpretacja to gra polegająca na zgadywaniu.

Udokumentowałem te problemy w dwóch zestawach postów na forach produktów Dokumentów Google:

(13.11.2011 i później) normdist wciąż wyrzuca wartość ujemną https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/

(2012-05-06 i nowsze) Błędy i inne problemy z funkcjami statystycznymi i matematycznymi w GSheets https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/

Bas Braams
źródło

(+1) Innymi słowy, wydaje się oczywiste, że ( wielu! ) Statystycy w Google w żaden sposób nie są zaangażowani w ten projekt.

kardynał

Jedyną częścią Dokumentów Google, z której korzystałem, jest edytor, który jest bardzo przydatny podczas wspólnej edycji w czasie rzeczywistym . Nie sądzę, żeby git i przyjaciele rozwiązali ten problem!

kjetil b halvorsen