fbpx
Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 7

W pierwotnym planie wydawniczym Poradnika dla sponiewieranych Excelem, dzisiejszy odcinek miał traktować o dodawaniu oraz usuwaniu wierszy i kolumn w ramce danych. Na szczęście mogę ów plan spontanicznie modyfikować, więc dziś będzie o… gimbazie.

Do gimnazjów uczęszczały roczniki 1986-2003. Najmłodsi absolwenci mają dziś ponad dwadzieścia lat. Za dwadzieścia lat dobiją do czterdziestki. Zastanowiłem się, jak ich podróż w przyszłość będzie wyglądała na wizualizacji piramidy wieku mieszkańców Polski. Obserwatorzy social mediów Informatyka Zakładowego już to wiedzą:

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 6

W pracy z danymi można wyróżnić kilka etapów. Pierwszym jest import danych, omówiliśmy go pobieżnie w odcinku czwartym. Ostatnim będzie analiza i wyciąganie wniosków. Etap pośredni to dostosowanie załadowanych danych do postaci najbardziej dogodnej do przetwarzania – tym tematem zajmiemy się dzisiaj.

Bardzo rzadko kontrolujemy format i „kształt” danych wejściowych. Najczęściej dostaniemy na twarz zestaw plików CSV albo XLSX o losowym układzie i przypadkowym nazewnictwie kolumn. Dla początkujących analityków będzie to dużą niespodzianką, ale w projektach Data Science nierzadko 80% czasu spędzimy na… konwersji i łączeniu danych z różnych źródeł.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 5

Uczestników e-mailowej edycji „Poradnika” pytałem, czego najbardziej nie lubią w pracy z Excelem. Wśród odpowiedzi bardzo często pojawiały się daty i obliczenia kalendarzowe. Oto jeden z typowych cytatów: „Praca z datami i timestampami. To jest koszmar i jedna wielka patologia, szczególnie w połączeniu z wykresami i to jeszcze przeklejanymi do prezentacji. Jeśli miałbym wskazać jedną, absolutnie najgorszą rzecz, to to by było to. Aż się zdenerwowałem na samą myśl.

Trzeba przyznać, że Excel zasłużył sobie na krytykę – jego nadgorliwość w konwersji wszystkiego na daty jest co najmniej irytująca. Ważniejsze problemy leżą jednak głębiej, w sposobie reprezentacji dat i godzin oraz operowania na nich.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 4

W poprzednich odcinkach nauczyliśmy się, jak tworzyć ramkę danych z pliku CSV i jak wizualizować dane na wykresach. Co jednak, jeśli chcemy eksperymentować na własnych danych, które trzymamy w Excelu? Nie musimy używać formatów pośrednich – dziś utworzymy ramkę danych bezpośrednio z pliku XLSX.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 3

Tworzenie wykresu w Excelu przypomina trochę rysowanie go na papierze – decydujemy o doborze kolorów, grubości linii, opisach osi, położeniu legendy i tak dalej. Po mniejszej lub większej liczbie kliknięć mamy gotowy wykres.

Filozofia języka R (a dokładniej: biblioteki ggplot2 z pakietu Tidyverse) jest nieco inna i przypomina przekazywanie poleceń rysownikowi. Nie musimy opisywać każdego drobiazgu. Rysownik wie, jak się rysuje wykresy, więc będzie potrzebował jedynie zwięzłych instrukcji opisujących nasze oczekiwania.

Jak się już domyślacie, dziś poczytamy o wykresach.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 2

Oto drugi odcinek Poradnika dla sponiewieranych Excelem, w którym poznajemy alternatywne metody pracy z danymi. Dziś spojrzymy na podstawową strukturę języka R czyli ramkę danych. Aby lepiej zrozumieć, o czym mowa, wróćmy na chwilę do Excela.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 1

W drugiej połowie 2023 roku rozpocząłem dystrybucję „Poradnika dla sponiewieranych Excelem”. Był to rozsyłany e-mailem cykl edukacyjny przeznaczony dla osób zainteresowanych automatyzowaniem analizy i wizualizacji danych. Jego zwieńczeniem miało być szkolenie, które nie doszło jednak do skutku.

Wiedza zawarta w „Poradniku” będzie aktualna przez długi czas, więc postanowiłem cały kilkunastuodcinkowy cykl opublikować na blogu. Jeśli znasz Excela w stopniu zaawansowanym, koniecznie sprawdź, jak usprawnić i przyspieszyć pracę przy użyciu języka R i środowiska RStudio!

Kategorie
Publicystyka Zrób to sam

Niebezpiecznik, Zaufana Trzecia Strona, Sekurak – analiza dynamiki publikacji

Każdy czytelnik Informatyka Zakładowego musiał słyszeć o Niebezpieczniku, Zaufanej Trzeciej Stronie i Sekuraku, wielkiej trójce polskich serwisów IT security. Mało kto orientuje się jednak, jaki ogrom wiedzy otrzymaliśmy stamtąd całkowicie za darmo. Wiedzę zmierzyć trudno, objętość opublikowanych tekstów łatwiej.

W niniejszym tekście opisuję, jakich narzędzi użyłem do oszacowania aktywności i dynamiki publikacji w wymienionych serwisach, omawiam też uzyskane wyniki. Zadanie takie dałoby się zrealizować w jedno popołudnie, gdyby nie pewna nieoczekiwana przeszkoda…

Kategorie
Zrób to sam

Jak zainstalować język R i środowisko RStudio

Język programowania R, używany do obliczeń statystycznych i przetwarzania danych, pojawiał się już na łamach niniejszego bloga. Korzystaliśmy z niego w tak odległych zastosowaniach, jak obliczanie odległości wyspy Hunga Tonga od szczytów Tatr i Karkonoszy, czy wizualizacji popularności artykułów z bloga.

Niniejszy tekst stanowi materiał pomocniczy dla uczestników darmowego programu edukacyjnego Poradnik dla sponiewieranych Excelem. Dowiesz się, jak zainstalować język R i środowisko RStudio na komputerze z systemem Windows. Objaśnię, dlaczego możemy legalnie przeprowadzić tę operację na służbowym komputerze wykorzystywanym do celów komercyjnych (oczywiście po uzyskaniu zgody działu IT). Zaczynajmy!

Kategorie
Statystyki Zrób to sam

Najpopularniejsze artykuły z roku 2020 na fajnym wykresie i jak go zrobić

W jednym z poprzednich tekstów pokazałem, że arkusz kalkulacyjny pozwala przygotować całkiem złożone obliczenia i wizualizacje. Niestety, szybko zderzamy się z głównym problemem arkuszy – dane są tam ściśle powiązane z operacjami przetwarzania a niewielkie zmiany w pośrednim kroku obliczeń mogą pociągać konieczność przeorganizowanie całego arkusza.

Jeśli makra i skomplikowane formuły masz w małym palcu, może czas na kolejny krok? W tym tekście poznasz środowisko RStudio Cloud i zobaczysz, w jaki sposób dane tabelaryczne można obrabiać w języku skryptowym. Nie będzie to tutorial prowadzący małymi kroczkami, skaczemy w głąb języka R, kolekcji pakietów tidyverse oraz biblioteki ggplot. Wykresy przygotujemy przy użyciu gramatyki opisującej mapowania zmiennych, charakterystykę układu współrzędnych oraz definicje kształtów i kolorów.