fbpx
Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – epilog

To ostatni odcinek Poradnika dla Sponiewieranych Excelem. Niesie on radość wszystkim, którzy chcieli używać pakietu RStudio w pracy, ale dowiedzieli się, że nie zostanie on zainstalowany (nie, bo nie i kropka).

Jeśli masz dostęp do internetu, do twojej dyspozycji pozostają co najmniej dwa sposoby uruchomienia kodu R w… przeglądarce internetowej. Choć praca może nie być tak wygodna i wydajna, jak w natywnym RStudio zainstalowanym na komputerze, to dla wielu osób może być to wariant dostatecznie dobry.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 12

W poprzednim odcinku Poradnika dla sponiewieranych Excelem wyraziłem opinię, że Główna Dyrekcja Dróg Krajowych i Autostrad powinna tworzyć takie prezentacje własnymi siłami, nie zaś zlecać ich produkcję na zewnątrz.

Dziś sprawdzimy, ile pracy wymagałoby stworzenie kompleksowego raportu z danych zebranych przez Stacje Ciągłych Pomiarów Ruchu, ale dla każdej stacji z osobna. Skorzystamy ponownie z zestawu danych udostępnionego w serwisie dane.gov.pl.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 11

Łączenie danych z dwóch różnych źródeł przy użyciu funkcji WYSZUKAJ.PIONOWO albo X.WYSZUKAJ (czyli VLOOKUP/XLOOKUP) to w Excelu swoisty rytuał przejścia. Oddziela on użytkowników początkujących od średnio zaawansowanych. 

Wyszukiwanie wg klucza jest w Excelu nierozerwalnie związane ze wspólnym układem współrzędnych. Podajemy zakresy danych dla kluczy, zakresy danych dla rezultatów, preferowany tryb dopasowania danych – przy większych zbiorach danych staje się to naprawdę niewygodne. 

Ramki danych języka R pozwalają wiele operacji przeprowadzić w sposób szybszy i czytelniejszy. Tak też będzie dzisiaj – poznamy trzy różne sposoby na łączenie informacji z różnych zestawów danych.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 10

Gdy przetwarzamy dane pomiarowe zebrane w tzw. szeregach czasowych (seria pomiarów wraz z datą wykonania), możemy potrzebować informacji na temat długoterminowej dynamiki zmian. Czasem nie będzie ona oczywista, bo np. temperatura powietrza może zmieniać się w ciągu doby o 20 stopni Celsjusza a tygodniowy trend niekoniecznie ukaże się na wykresie.

W innych sytuacjach przydatne będą obliczenia przyrostowe, np. liczba sprzedanych egzemplarzy towaru od początku roku kalendarzowego albo średnia wszystkich dotychczasowych ocen wskazanego ucznia. Jak sobie z tym poradzić?

Dziś poznamy funkcje przydatne podczas analizowania szeregów czasowych

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 9

W dziewiątym odcinku Poradnika dotarliśmy do obliczeń agregujących. Wielu użytkowników Excela zostało tu solidnie sponiewieranych, bo choć same operacje są intuicyjne, to ich przełożenie na dwuwymiarową siatkę komórek – niekoniecznie.

Po raz kolejny przekonujemy się, że oddzielenie danych od operacji na danych bardzo ułatwia śledzenie przebiegu obliczeń. Ani przez chwilę nie zaprzątamy sobie głowy rozmieszczeniem kolejnych etapów obliczeń we wspólnym układzie współrzędnych, jak muszą to robić użytkownicy Excela.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 8

Dziś wracamy do ramek danych i uczymy się tworzyć oraz usuwać kolumny i wiersze. Najpierw jednak przyjrzymy się operatorowi, z którego do tej pory korzystaliśmy bez głębszego zastanowienia.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 7

W pierwotnym planie wydawniczym Poradnika dla sponiewieranych Excelem, dzisiejszy odcinek miał traktować o dodawaniu oraz usuwaniu wierszy i kolumn w ramce danych. Na szczęście mogę ów plan spontanicznie modyfikować, więc dziś będzie o… gimbazie.

Do gimnazjów uczęszczały roczniki 1986-2003. Najmłodsi absolwenci mają dziś ponad dwadzieścia lat. Za dwadzieścia lat dobiją do czterdziestki. Zastanowiłem się, jak ich podróż w przyszłość będzie wyglądała na wizualizacji piramidy wieku mieszkańców Polski. Obserwatorzy social mediów Informatyka Zakładowego już to wiedzą:

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 6

W pracy z danymi można wyróżnić kilka etapów. Pierwszym jest import danych, omówiliśmy go pobieżnie w odcinku czwartym. Ostatnim będzie analiza i wyciąganie wniosków. Etap pośredni to dostosowanie załadowanych danych do postaci najbardziej dogodnej do przetwarzania – tym tematem zajmiemy się dzisiaj.

Bardzo rzadko kontrolujemy format i „kształt” danych wejściowych. Najczęściej dostaniemy na twarz zestaw plików CSV albo XLSX o losowym układzie i przypadkowym nazewnictwie kolumn. Dla początkujących analityków będzie to dużą niespodzianką, ale w projektach Data Science nierzadko 80% czasu spędzimy na… konwersji i łączeniu danych z różnych źródeł.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 5

Uczestników e-mailowej edycji „Poradnika” pytałem, czego najbardziej nie lubią w pracy z Excelem. Wśród odpowiedzi bardzo często pojawiały się daty i obliczenia kalendarzowe. Oto jeden z typowych cytatów: „Praca z datami i timestampami. To jest koszmar i jedna wielka patologia, szczególnie w połączeniu z wykresami i to jeszcze przeklejanymi do prezentacji. Jeśli miałbym wskazać jedną, absolutnie najgorszą rzecz, to to by było to. Aż się zdenerwowałem na samą myśl.

Trzeba przyznać, że Excel zasłużył sobie na krytykę – jego nadgorliwość w konwersji wszystkiego na daty jest co najmniej irytująca. Ważniejsze problemy leżą jednak głębiej, w sposobie reprezentacji dat i godzin oraz operowania na nich.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 4

W poprzednich odcinkach nauczyliśmy się, jak tworzyć ramkę danych z pliku CSV i jak wizualizować dane na wykresach. Co jednak, jeśli chcemy eksperymentować na własnych danych, które trzymamy w Excelu? Nie musimy używać formatów pośrednich – dziś utworzymy ramkę danych bezpośrednio z pliku XLSX.