Wiem, że większość z was prawdopodobnie uważa, że Dokumenty Google są nadal prymitywnym narzędziem. To nie jest Matlab ani R, a nawet Excel. Jestem jednak zaskoczony mocą tego oprogramowania internetowego, które korzysta tylko z możliwości działania przeglądarki (i jest kompatybilne z wieloma przeglądarkami, które działają zupełnie inaczej).
Aktywny na tym forum Mike Lawrence udostępnił nam arkusz kalkulacyjny, korzystając z Dokumentów Google, robiąc z nim całkiem wymyślne rzeczy. Osobiście odtworzyłem dość dokładną strukturę testowania hipotez (w tym liczne testy parametryczne i nieparametryczne) pierwotnie wykonane w programie Excel w Dokumentach Google.
Interesuje mnie, czy ktoś z was wypróbował Dokumenty Google i podniósł go do granic możliwości w ciekawych aplikacjach. Chciałbym również dowiedzieć się o błędach lub wadach, które napotkałeś w Dokumentach Google
Oznaczam to pytanie „dla społeczności wiki”, co oznacza, że nie ma na to najlepszych odpowiedzi. To bardziej ankieta niż cokolwiek innego.
źródło
Odpowiedzi:
Moim głównym zastosowaniem w arkuszach kalkulacyjnych Google były formularze Google, do zbierania danych, a następnie łatwego importowania ich do R. Oto post, który napisałem o tym pół roku temu:
Arkusze kalkulacyjne Google + formularze google + R = Łatwe zbieranie i importowanie danych do analizy
Ponadto, jeśli chcesz współpracować, moim narzędziem wyboru jest DropBox. Kilka miesięcy temu napisałem o tym post:
Synchronizacja plików między komputerami za pomocą DropBox
Używam go od około pół roku w projekcie z 5 współautorami i był nieoceniony (synchronizowanie plików danych od 3 autorów, wszyscy mogą zobaczyć najnowszą wersję produkowanych przeze mnie wyników i wszyscy szukają w tym samym pliku docx dla artykułu).
Oba posty zawierają samouczki wideo i instrukcje ustne.
źródło
Jako entuzjasta użytkowników R, bash, Python, asciidoc, (La) TeX, oprogramowania open source lub jakichkolwiek narzędzi un * x, nie mogę zapewnić obiektywnej odpowiedzi. Co więcej, jak często argumentuję przeciwko używaniu MS Excel lub jakiegokolwiek arkusza kalkulacyjnego (no cóż, widzisz swoje dane lub ich część, ale co jeszcze?), Nie przyczyniłbym się pozytywnie do debaty. Nie jestem jedyny, np
Mój kolega stracił wszystkie swoje makra z powodu braku kompatybilności wstecznej itp. Inny kolega próbował zaimportować dane genetyczne (około 700 badanych genotypowanych na 800 000 markerach, 120 miesięcy), tylko po to, by „na nie spojrzeć”. Excel zawiódł, Notatnik też się poddał ... Jestem w stanie „spojrzeć na nie” za pomocą vi i szybko sformatować dane za pomocą skryptu sed / awk lub perl. Myślę więc, że przy omawianiu przydatności arkuszy kalkulacyjnych należy wziąć pod uwagę różne poziomy. Albo pracujesz na małych zestawach danych i chcesz zastosować tylko elementarne dane statystyczne i być może jest to w porządku. Następnie to do ciebie należy zaufanie wyników lub zawsze możesz poprosić o kod źródłowy, ale być może łatwiej byłoby wykonać szybki test wszystkich procedur wbudowanych z testem porównawczym NIST. Nie sądzę, że odpowiada to dobremu sposobowi tworzenia statystyk po prostu dlatego, że nie jest to prawdziwe oprogramowanie statystyczne (IMHO), chociaż jako aktualizacja wyżej wymienionej listy, nowsze wersje MS Excel wydają się wykazywać poprawę w zakresie dokładności dla analizy statystyczne, patrz Keeling i Pavur, Badanie porównawcze rzetelności dziewięciu pakietów oprogramowania statystycznego ( CSDA 2007 51: 3811).
Mimo to około jeden na 10 lub 20 artykułów (w biomedycynie, psychologii, psychiatrii) zawiera grafiki wykonane w programie Excel, czasem bez usuwania szarego tła, poziomej czarnej linii lub automatycznej legendy (Andrew Gelman i Hadley Wickham z pewnością są tak szczęśliwi jak ja, kiedy to widzę). Ale ogólnie rzecz biorąc, jest to najczęściej używane „oprogramowanie” według niedawnej ankiety na FlowingData, która przypomina mi starą rozmowę Briana Ripleya (który jest współautorem pakietu MASS R i pisze doskonałą książkę na temat rozpoznawania wzorców , pośród innych):
Teraz, jeśli uważasz, że zapewnia to szybki i łatwiejszy sposób na wykonanie statystyk, dlaczego nie? Problem polega na tym, że wciąż są rzeczy, których nie da się zrobić (a przynajmniej jest to dość trudne) w takim środowisku. Myślę o bootstrapie, permutacji, analizie danych eksploracyjnych na wielu odmianach, by wymienić tylko kilka. O ile nie jesteś biegły w VBA (który nie jest ani skryptem, ani językiem programowania), jestem skłonny myśleć, że nawet niewielkie operacje na danych są lepiej obsługiwane w R (lub Matlab lub Python, pod warunkiem, że masz odpowiednie narzędzie do radzenia sobie z nimi z np. tak zwaną ramką danych). Przede wszystkim uważam, że Excel nie promuje bardzo dobrych praktyk dla analityka danych (ale dotyczy to również każdego „klikodromu”, patrz dyskusja na temat Medstats na temat potrzeby prowadzenia rejestru przetwarzania danych,Dokumentowanie analiz i edycji danych ). Znalazłem ten post w statystykach praktycznych, który ilustruje niektóre pułapki w programie Excel. Mimo to dotyczy Excela, nie wiem jak to tłumaczy na GDocs.
Jeśli chodzi o dzielenie się swoją pracą, myślę, że Github (lub Gist dla kodu źródłowego) lub Dropbox (chociaż umowa EULA może zniechęcić niektórych ludzi) to bardzo dobre opcje (historia zmian, zarządzanie dotacjami w razie potrzeby itp.). Nie mogę zachęcić do korzystania z oprogramowania, które zasadniczo przechowuje dane w formacie binarnym. Wiem, że można go zaimportować w R, Matlab, Stata, SPSS, ale moim zdaniem:
Otóż to.
źródło
„Chciałbym również dowiedzieć się o błędach lub wadach, które napotkałeś w Dokumentach Google”.
Odpowiem tylko na tę część pierwotnego pytania. Moje eksploracje Arkuszy kalkulacyjnych Dokumentów Google (GSheets) dotyczyły funkcji matematycznych i statystycznych. Ostatecznie oceniam, że arkusze kalkulacyjne Google są pod tym względem znacznie gorsze od złośliwego programu Excel z 1997 r.
Świadek: Arkusze Google najwyraźniej oceniają erfc (x) za pomocą erfc (x) = 1-erf (x) dla argumentów, dla których erf (x) jest bliskie 1. Oceniają odchylenie standardowe lub wariancję za pomocą średniej kwadratów minus kwadrat średniej; to zła praktyka numeryczna. Funkcje kombinatoryczne i prawdopodobieństwa dyskretne, takie jak poisson (n, x) = pow (x, n) * exp (-x) / n! są oceniane czynnik po czynniku, powodując niepotrzebne przepełnienie. Silnia jest oceniana przy użyciu przybliżenia Stirlinga czynnik po czynniku, powodując dalsze niepotrzebne przepełnienie. Skumulowany rozkład Poissona jest oceniany po prostu przez skończoną sumę, więc właściwość normalizacyjna zostaje utracona w zaokrągleniu; to samo dotyczy skumulowanego rozkładu dwumianowego. Skumulowany rozkład normalny jest całkowicie pomieszany; wykracza poza zakres [0,1]. Występuje ogólna utrata dokładności w stosunku do implementacji tych samych funkcji w innych pakietach. Opisy podstawowych funkcji, takich jak zaokrąglanie, są często zniekształcone i niezrozumiałe; interpretacja to gra polegająca na zgadywaniu.
Udokumentowałem te problemy w dwóch zestawach postów na forach produktów Dokumentów Google:
(13.11.2011 i później) normdist wciąż wyrzuca wartość ujemną https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/
(2012-05-06 i nowsze) Błędy i inne problemy z funkcjami statystycznymi i matematycznymi w GSheets https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/
źródło