fbpx
Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – epilog

To ostatni odcinek Poradnika dla Sponiewieranych Excelem. Niesie on radość wszystkim, którzy chcieli używać pakietu RStudio w pracy, ale dowiedzieli się, że nie zostanie on zainstalowany (nie, bo nie i kropka).

Jeśli masz dostęp do internetu, do twojej dyspozycji pozostają co najmniej dwa sposoby uruchomienia kodu R w… przeglądarce internetowej. Choć praca może nie być tak wygodna i wydajna, jak w natywnym RStudio zainstalowanym na komputerze, to dla wielu osób może być to wariant dostatecznie dobry.

Posit Cloud czyli RStudio w chmurze

Weterani Poradnika znają już dobrze środowisko RStudio instalowane w systemie Windows, MacOS, lub Linux. RStudio z załadowanym przykładem z trzeciego odcinkiem wygląda następująco:

Widzimy tu plik z programem języka R, załadowaną ramkę danych, kolorowy wykres – nic nowego. Jak może wyglądać odpowiednik RStudio w przeglądarce internetowej? Uwaga, możecie się zdziwić…

Środowisko Posit Cloud to nic innego, jak chmurowa wersja RStudio, dostarczana przez tego samego dostawcę. Znakomita większość interfejsu wygląda identycznie! Jak to działa?

Okienka widoczne na ekranie prezentują dane przetwarzane na serwerach Posit. Gdy rozpoczniemy pracę w środowisku chmurowym, specjalnie dla nas uruchomiony zostanie wirtualny serwer na którym działa interpreter języka R. Przekazywane są do niego wydawane komendy, zaś ich rezultaty (zarówno ramki danych jak i grafika) są widoczne w przeglądarce.

Łatwo zgadnąć, że usługa taka będzie płatna, dostawca musi przecież ponieść koszty kupna i utrzymania serwerów. Cennik znajdziemy na stronie posit.cloud/plans. Dostępne jest jednak darmowe konto, w ramach którego mamy miesięcznie do dyspozycji 25 godzin pracy dość małej maszyny wirtualnej, wyposażonej w 1 GB pamięci operacyjnej i jeden rdzeń procesora.

Wersja płatna Posit Cloud (25-75 USD) daje dostęp do 8-32 GB pamięci, 2-8 rdzeni CPU oraz 150-500 godzin obliczeń miesięcznie. Cykliczny koszt jest tu minusem, po stronie plusów możemy zapisać łatwiejszą pracę grupową na tym samym zestawie danych.

Uwaga! Należy pamiętać o tym, że dane przetwarzane przez Posit Cloud są wysyłane „w świat”, poza naszą organizację – konieczne jest więc przeprowadzenie analizy ryzyka takiej operacji.

WebR czyli język R w przeglądarce

Projektem o innym profilu, niż Posit Cloud, jest WebR – specjalna wersja języka R przekształcona do postaci WebAssembly, działająca w przeglądarce internetowej. Wykorzystywane są tu te same mechanizmy, dzięki którym w Firefoksie czy Chrome można zagrać w Dooma albo uruchomić emulator ośmiobitowca.

Środowisko uruchomieniowe WebR dostępne jest pod adresem webr.r-wasm.org/latest/. Jego możliwości są dużo skromniejsze, niż Posit Cloud, ale taka konfiguracja ma istotną przewagę. Cały projekt jest uruchamiany lokalnie, dane nigdy nie opuszczają naszego komputera. Pliki wyjściowe, widoczne w oknie WebR, żyją jedynie w pamięci przeglądarki – musimy pamiętać o wyeksportowaniu ich na dysk naszego peceta.

Choć WebR oferuje mniejszy komfort pracy i skromniejszy wybór bibliotek, niż lokalna instalacja RStudio, to może z powodzeniem posłużyć do zademonstrowania szefowi korzyści wynikających z użycia języka R. Dane nie opuszczają naszego komputera, więc taka demonstracja będzie możliwa bez naruszania regulaminów i polityki prywatności.

Podsumowanie

Przeglądarkowe środowiska języka R mogą z powodzeniem zrealizować niewielkie zadania, ale nie mogą równać się programowi działającemu na lokalnym komputerze. Operacje wymagające dużej ilości pamięci albo korzystające z wielowątkowości to już domena prawdziwej instalacji R na stacji roboczej.

Zwolennicy rozwiązań chmurowych muszą też zwrócić uwagę na koszty. W cenie miesięcznego abonamentu na droższą wersję Posit Cloud można kupić 32 GB pamięci RAM, roczny abonament to już koszt zakupu niezłego komputera, który będzie służył 24/7 przez wiele lat.

Epilog

„Poradnik dla Sponiewieranych Excelem” stanowił wprowadzenie do języka R, dalszym ciągiem miało być szkolenie – systematyzujące i pogłębiające przedstawione treści. Niestety, przedsprzedaż ujawniła zbyt małe zainteresowanie. Choć Poradnik zachęcił wiele osób do spojrzenia na alternatywne metody pracy z danymi, to nie zdołałem przekonać do języka R i środowiska RStudio dostatecznie licznej grupy zaawansowanych użytkowników Excela.

Gdzie znaleźć więcej darmowych materiałów o języku R?

Jeśli znasz angielski, zacznij od pozycji „R for Data Science”. Z materiałów w języku polskim mogę polecić „Elementarz programisty”. Gdy interesują cię różne metody wizualizacji danych, odwiedź stronę The R Graph Gallery i ucz się z przykładów tam opublikowanych.

Czym teraz zajmie się autor Poradnika?

Niniejszy tekst czytasz na blogu Informatyk Zakładowy. Skocz do spisu treści lub strony głównej. Jeśli chcesz śledzić moje przedsięwzięcia i aktywności, które nie trafiają na łamy blogaska, zapisz się na newsletter. Osoby zainteresowane pozyskiwaniem danych ze źródeł internetowych powinny zerknąć na Szkolenie z automatyzacji pobierania danych z internetu – scrapowanie.pl.

Zapraszam do śledzenia profilu Informatyka Zakładowego na Twitterze, LinkedIn i Facebooku (oraz – eksperymentalnie – Bluesky).

Prośba na zakończenie (ważna!)

Jeśli dotarłaś/eś aż tu, napisz mi o tym! Proszę o komentarz pod blogonotką albo e-maila na adres tomasz.zielinski@gmail.com. Twórczość publikowana w sieci często nie robi nawet cichego „plum” tylko przepada w czarnej otchłani. Każdy sygnał od czytelnika jest ważny i ZAWSZE poprawia autorowi humor. Tak więc – proszę o komcia lub maila.

Wszystkim sponiewieranym przez Excela dziękuję za lekturę!
Tomek Zieliński



O autorze: zawodowy programista od 2003 roku, pasjonat bezpieczeństwa informatycznego. Rozwijał systemy finansowe dla NBP, tworzył i weryfikował zabezpieczenia bankowych aplikacji mobilnych, brał udział w pracach nad grą Angry Birds i wyszukiwarką internetową Microsoft Bing.

3 odpowiedzi na “Analiza danych w języku R – epilog”

A ja nawet myślałem o kupnie Twojego kursu, ale wstrzymałem się z decyzją myśląc, że kupię wersję 2.0 która będzie poprawiona o uwagi podane przez uczestników z pierwszej edycji. I jak widać po części przez swoje odwlekanie na potem przyczyniłem się do porażki Twojego projektu.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *