fbpx
Kategorie
Publicystyka Statystyki

Podsumowanie piątego roku blogowania

Dziwny był to rok, w którym ostatecznie zaakceptowałem mądrość, że to droga jest celem. Do przeszłości należy złość, że artykuł, w który włożyłem dużo wysiłku, nie klika się. Przestałem śledzić statystyki bloga i oceniać potencjalne tematy pod kątem oglądalności. Piszę, bo lubię. Osiągnąłem zen, homeostazę, homeopatię i osteoporozę. A jedno zdanie z tego akapitu nie jest do końca prawdziwe.

Samo zaś pojęcie bloga robi się tak archaiczne, że młodzieży będę się chyba przedstawiał jako „tekstowy influencer”. A gdy dodam, że mojej twórczości nie wspomaga AI, to już całkiem wyjdę na cyfrowego amisza. I tak to się pomalutku toczy w tej blogosferze…

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 11

Łączenie danych z dwóch różnych źródeł przy użyciu funkcji WYSZUKAJ.PIONOWO albo X.WYSZUKAJ (czyli VLOOKUP/XLOOKUP) to w Excelu swoisty rytuał przejścia. Oddziela on użytkowników początkujących od średnio zaawansowanych. 

Wyszukiwanie wg klucza jest w Excelu nierozerwalnie związane ze wspólnym układem współrzędnych. Podajemy zakresy danych dla kluczy, zakresy danych dla rezultatów, preferowany tryb dopasowania danych – przy większych zbiorach danych staje się to naprawdę niewygodne. 

Ramki danych języka R pozwalają wiele operacji przeprowadzić w sposób szybszy i czytelniejszy. Tak też będzie dzisiaj – poznamy trzy różne sposoby na łączenie informacji z różnych zestawów danych.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 6

W pracy z danymi można wyróżnić kilka etapów. Pierwszym jest import danych, omówiliśmy go pobieżnie w odcinku czwartym. Ostatnim będzie analiza i wyciąganie wniosków. Etap pośredni to dostosowanie załadowanych danych do postaci najbardziej dogodnej do przetwarzania – tym tematem zajmiemy się dzisiaj.

Bardzo rzadko kontrolujemy format i „kształt” danych wejściowych. Najczęściej dostaniemy na twarz zestaw plików CSV albo XLSX o losowym układzie i przypadkowym nazewnictwie kolumn. Dla początkujących analityków będzie to dużą niespodzianką, ale w projektach Data Science nierzadko 80% czasu spędzimy na… konwersji i łączeniu danych z różnych źródeł.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 5

Uczestników e-mailowej edycji „Poradnika” pytałem, czego najbardziej nie lubią w pracy z Excelem. Wśród odpowiedzi bardzo często pojawiały się daty i obliczenia kalendarzowe. Oto jeden z typowych cytatów: „Praca z datami i timestampami. To jest koszmar i jedna wielka patologia, szczególnie w połączeniu z wykresami i to jeszcze przeklejanymi do prezentacji. Jeśli miałbym wskazać jedną, absolutnie najgorszą rzecz, to to by było to. Aż się zdenerwowałem na samą myśl.

Trzeba przyznać, że Excel zasłużył sobie na krytykę – jego nadgorliwość w konwersji wszystkiego na daty jest co najmniej irytująca. Ważniejsze problemy leżą jednak głębiej, w sposobie reprezentacji dat i godzin oraz operowania na nich.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 4

W poprzednich odcinkach nauczyliśmy się, jak tworzyć ramkę danych z pliku CSV i jak wizualizować dane na wykresach. Co jednak, jeśli chcemy eksperymentować na własnych danych, które trzymamy w Excelu? Nie musimy używać formatów pośrednich – dziś utworzymy ramkę danych bezpośrednio z pliku XLSX.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 3

Tworzenie wykresu w Excelu przypomina trochę rysowanie go na papierze – decydujemy o doborze kolorów, grubości linii, opisach osi, położeniu legendy i tak dalej. Po mniejszej lub większej liczbie kliknięć mamy gotowy wykres.

Filozofia języka R (a dokładniej: biblioteki ggplot2 z pakietu Tidyverse) jest nieco inna i przypomina przekazywanie poleceń rysownikowi. Nie musimy opisywać każdego drobiazgu. Rysownik wie, jak się rysuje wykresy, więc będzie potrzebował jedynie zwięzłych instrukcji opisujących nasze oczekiwania.

Jak się już domyślacie, dziś poczytamy o wykresach.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 2

Oto drugi odcinek Poradnika dla sponiewieranych Excelem, w którym poznajemy alternatywne metody pracy z danymi. Dziś spojrzymy na podstawową strukturę języka R czyli ramkę danych. Aby lepiej zrozumieć, o czym mowa, wróćmy na chwilę do Excela.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 1

W drugiej połowie 2023 roku rozpocząłem dystrybucję „Poradnika dla sponiewieranych Excelem”. Był to rozsyłany e-mailem cykl edukacyjny przeznaczony dla osób zainteresowanych automatyzowaniem analizy i wizualizacji danych. Jego zwieńczeniem miało być szkolenie, które nie doszło jednak do skutku.

Wiedza zawarta w „Poradniku” będzie aktualna przez długi czas, więc postanowiłem cały kilkunastuodcinkowy cykl opublikować na blogu. Jeśli znasz Excela w stopniu zaawansowanym, koniecznie sprawdź, jak usprawnić i przyspieszyć pracę przy użyciu języka R i środowiska RStudio!

Kategorie
Publicystyka Statystyki

Podsumowanie czwartego roku blogowania

Minął czwarty rok istnienia bloga Informatyk Zakładowy. Dziś dzielę się przemyśleniami o sensowności pisania bloga w 2024 roku, błyskotliwymi uwagami o social mediach oraz pomysłami i planami na przyszłość.

Poznacie wynik finansowy bloga wraz z dokładnymi przychodami i kosztami. Takie informacje są przez autorów tworzących w sieci publikowane rzadko, a szkoda – na początku blogowania byłem ich najbardziej ciekaw. Choć ścieżka każdego autora kształtuje się inaczej i nie zawsze da się porównać wysiłek, nakład czasu czy zaangażowanie, to już sama tylko możliwość zajrzenia do kuchni innego autora może być źródłem cennych inspiracji.

Kategorie
Zrób to sam

Jak zainstalować język R i środowisko RStudio

Język programowania R, używany do obliczeń statystycznych i przetwarzania danych, pojawiał się już na łamach niniejszego bloga. Korzystaliśmy z niego w tak odległych zastosowaniach, jak obliczanie odległości wyspy Hunga Tonga od szczytów Tatr i Karkonoszy, czy wizualizacji popularności artykułów z bloga.

Niniejszy tekst stanowi materiał pomocniczy dla uczestników darmowego programu edukacyjnego Poradnik dla sponiewieranych Excelem. Dowiesz się, jak zainstalować język R i środowisko RStudio na komputerze z systemem Windows. Objaśnię, dlaczego możemy legalnie przeprowadzić tę operację na służbowym komputerze wykorzystywanym do celów komercyjnych (oczywiście po uzyskaniu zgody działu IT). Zaczynajmy!