fbpx
Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 6

W pracy z danymi można wyróżnić kilka etapów. Pierwszym jest import danych, omówiliśmy go pobieżnie w odcinku czwartym. Ostatnim będzie analiza i wyciąganie wniosków. Etap pośredni to dostosowanie załadowanych danych do postaci najbardziej dogodnej do przetwarzania – tym tematem zajmiemy się dzisiaj.

Bardzo rzadko kontrolujemy format i „kształt” danych wejściowych. Najczęściej dostaniemy na twarz zestaw plików CSV albo XLSX o losowym układzie i przypadkowym nazewnictwie kolumn. Dla początkujących analityków będzie to dużą niespodzianką, ale w projektach Data Science nierzadko 80% czasu spędzimy na… konwersji i łączeniu danych z różnych źródeł.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 5

Uczestników e-mailowej edycji „Poradnika” pytałem, czego najbardziej nie lubią w pracy z Excelem. Wśród odpowiedzi bardzo często pojawiały się daty i obliczenia kalendarzowe. Oto jeden z typowych cytatów: „Praca z datami i timestampami. To jest koszmar i jedna wielka patologia, szczególnie w połączeniu z wykresami i to jeszcze przeklejanymi do prezentacji. Jeśli miałbym wskazać jedną, absolutnie najgorszą rzecz, to to by było to. Aż się zdenerwowałem na samą myśl.

Trzeba przyznać, że Excel zasłużył sobie na krytykę – jego nadgorliwość w konwersji wszystkiego na daty jest co najmniej irytująca. Ważniejsze problemy leżą jednak głębiej, w sposobie reprezentacji dat i godzin oraz operowania na nich.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 4

W poprzednich odcinkach nauczyliśmy się, jak tworzyć ramkę danych z pliku CSV i jak wizualizować dane na wykresach. Co jednak, jeśli chcemy eksperymentować na własnych danych, które trzymamy w Excelu? Nie musimy używać formatów pośrednich – dziś utworzymy ramkę danych bezpośrednio z pliku XLSX.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 3

Tworzenie wykresu w Excelu przypomina trochę rysowanie go na papierze – decydujemy o doborze kolorów, grubości linii, opisach osi, położeniu legendy i tak dalej. Po mniejszej lub większej liczbie kliknięć mamy gotowy wykres.

Filozofia języka R (a dokładniej: biblioteki ggplot2 z pakietu Tidyverse) jest nieco inna i przypomina przekazywanie poleceń rysownikowi. Nie musimy opisywać każdego drobiazgu. Rysownik wie, jak się rysuje wykresy, więc będzie potrzebował jedynie zwięzłych instrukcji opisujących nasze oczekiwania.

Jak się już domyślacie, dziś poczytamy o wykresach.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 2

Oto drugi odcinek Poradnika dla sponiewieranych Excelem, w którym poznajemy alternatywne metody pracy z danymi. Dziś spojrzymy na podstawową strukturę języka R czyli ramkę danych. Aby lepiej zrozumieć, o czym mowa, wróćmy na chwilę do Excela.

Kategorie
Analiza danych Zrób to sam

Analiza danych w języku R – odcinek 1

W drugiej połowie 2023 roku rozpocząłem dystrybucję „Poradnika dla sponiewieranych Excelem”. Był to rozsyłany e-mailem cykl edukacyjny przeznaczony dla osób zainteresowanych automatyzowaniem analizy i wizualizacji danych. Jego zwieńczeniem miało być szkolenie, które nie doszło jednak do skutku.

Wiedza zawarta w „Poradniku” będzie aktualna przez długi czas, więc postanowiłem cały kilkunastuodcinkowy cykl opublikować na blogu. Jeśli znasz Excela w stopniu zaawansowanym, koniecznie sprawdź, jak usprawnić i przyspieszyć pracę przy użyciu języka R i środowiska RStudio!

Kategorie
Publicystyka Statystyki

Podsumowanie czwartego roku blogowania

Minął czwarty rok istnienia bloga Informatyk Zakładowy. Dziś dzielę się przemyśleniami o sensowności pisania bloga w 2024 roku, błyskotliwymi uwagami o social mediach oraz pomysłami i planami na przyszłość.

Poznacie wynik finansowy bloga wraz z dokładnymi przychodami i kosztami. Takie informacje są przez autorów tworzących w sieci publikowane rzadko, a szkoda – na początku blogowania byłem ich najbardziej ciekaw. Choć ścieżka każdego autora kształtuje się inaczej i nie zawsze da się porównać wysiłek, nakład czasu czy zaangażowanie, to już sama tylko możliwość zajrzenia do kuchni innego autora może być źródłem cennych inspiracji.

Kategorie
Zrób to sam

Jak zainstalować język R i środowisko RStudio

Język programowania R, używany do obliczeń statystycznych i przetwarzania danych, pojawiał się już na łamach niniejszego bloga. Korzystaliśmy z niego w tak odległych zastosowaniach, jak obliczanie odległości wyspy Hunga Tonga od szczytów Tatr i Karkonoszy, czy wizualizacji popularności artykułów z bloga.

Niniejszy tekst stanowi materiał pomocniczy dla uczestników darmowego programu edukacyjnego Poradnik dla sponiewieranych Excelem. Dowiesz się, jak zainstalować język R i środowisko RStudio na komputerze z systemem Windows. Objaśnię, dlaczego możemy legalnie przeprowadzić tę operację na służbowym komputerze wykorzystywanym do celów komercyjnych (oczywiście po uzyskaniu zgody działu IT). Zaczynajmy!

Kategorie
Publicystyka

Na Marsa w jedną kadencję

Wyciek e-maili Michała Dworczyka, szefa kancelarii premiera, dają nam rzadką możliwość obejrzenia polskiej polityki „od kuchni”. Z najwyższym trudem powstrzymamy się od komentarza ogólnego, by skupić się na pojedynczym wątku pojedynczego wycieku – tego o polskiej misji na Marsa.

Dowiadujemy się bowiem, że polscy naukowcy starali się dotrzeć do polityków z pomysłem na misję kosmiczną nie tylko wskazując korzyści naukowe, lecz także „wymiar propagandowy krajowy i międzynarodowy nie do przecenienia”, ze szczególnym podkreśleniem sukcesu „w ramach jednej kadencji sejmowej”. Wyciek pochodzi z roku 2019 zaś autorzy mieli na myśli drugą kadencję rządów PiS. Wiemy, że ten pomysł nie wypalił, ale… w przypadku eksploracji kosmosu dobrze jest mieć plan B. Sprawdzimy, który z kolejnych rządów będzie mógł pokazać światu osiągnięcia polskiego przemysłu kosmicznego – i ogrzać się w propagandowym blasku sukcesu.

Kategorie
Publicystyka

Grosza daj tłumaczowi

Jednym z bardziej spektakularnych przykładów chybionego tłumaczenia w branży IT jest „Darmowa ochrona danych jesień”, nazwa programu dołączanego do laptopów Della (rozwiązanie zagadki na końcu artykułu). Ktoś mógłby parsknąć i spytać, czy naprawdę przełożenie kilku zdań z angielskiego na polski jest aż tak trudne. Otóż – z całego procesu adaptacji oprogramowania na inny język ta czynność jest akurat najprostsza, za to sam proces jest wręcz najeżony przeszkodami.

W niniejszym tekście opiszę, dlaczego tylko dojrzałe organizacje tworzące software są w stanie prawidłowo ogarnąć nie tylko tłumaczenia (translation), ale także dwa pozostałe aspekty globalizacji (globalization): internacjonalizację (internationalization) oraz lokalizację (localization). Zdolni programiści nie wystarczą. Staranni i wnikliwi testerzy też nie wystarczą. Ani biegli tłumacze. Potrzebny jest zespół, który wie co i jak zrobić, aby było dobrze.

Ten artykuł – publikowany jednocześnie w serwisach Informatyk Zakładowy oraz localization.pl – opisuje przyczyny pomyłek, kiksów i usterek, które mają miejsce gdzieś w świecie każdego dnia. Ich lista nie jest pełna ani kompletna, zaś każdy, kto pracował w międzynarodowym zespole tworzącym oprogramowanie, mógłby dorzucić coś od siebie. Motto: „lokalizacja jest jak kanalizacja — nikt o niej nie mówi, dopóki działa” (bonmocik Marty Bartnickiej).