fbpx
Kategorie
Publicystyka Statystyki

Podsumowanie pierwszej edycji szkolenia ze scrapowania

To kolejna blogonotka, w której dzielę się wynikiem finansowym bloga. Zawsze z dużym zainteresowaniem śledziłem cudze przedsięwzięcia online i starałem się dociec, jaki wpływ na ich sukces miała renoma i marka autora, popularność serwisu, jakość publikacji i materiałów dostępnych gratisowo, wreszcie – reklamy i płatna promocja. Dziś moja kolej. Poznacie liczby i fakty stojące za Szkoleniem z automatyzacji pobierania danych z internetu.

Szkolenie, oparte na moim autorskim pomyśle i programie, okazało się wielkim sukcesem. Sprzedaż przyniosła dokładnie 59483 złote, nie było ani jednego zwrotu. Będę szczery – moje optymistyczne prognozy sprzedaży zostały przekroczone kilkukrotnie. Jak na blogera piszącego hobbystycznie po godzinach, bez dwóch zdań wszedłem na kolejny etap rozwoju.

Kategorie
Publicystyka Zrób to sam

Śnieżka, Kasprowy i Wyspy Tonga

W sobotę 15 stycznia 2022 na południowym Pacyfiku miała miejsce potężna erupcja wulkanu Hunga Tonga. Fala uderzeniowa miała tak dużą siłę, że nawet w Polsce odnotowano skok ciśnienia atmosferycznego. W jednej ze stacji telewizyjnych trafiłem na wypowiedź eksperta, który zastanawiał się, czemu stacje meteo na Śnieżce i Kasprowym Wierchu zarejestrowały to zdarzenie niemal w tej samej chwili. Wydało mu się to trudne do wytłumaczenia z powodu dużej odległości dzielącej te obserwatoria.

Ja z kolei zdziwiłem się, że ekspert się zdziwił, ale potem nabrałem wątpliwości, czy moja intuicja była zgodna rzeczywistością. W niniejszej blogonotce pokazuję, jak szybko i prosto przygotować w języku R ilustracje i obliczenia pozwalające sprawdzić, skąd i z jaką prędkością dobiegło do nas odległe echo wybuchu.

Kategorie
Administracja publiczna Publicystyka

Transparentność SLPS – duży krok do przodu, dwa małe kroki w tył [akt.]

Systemowi Losowego Przydziału Spraw poświęciłem kilka krytycznych tekstów, miło dla odmiany napisać coś pozytywnego. W Portalu Informacyjnym Sądów Powszechnych pojawiła się „Wyszukiwarka raportów z SLPS” której jeszcze kilka dni temu na pewno tam nie było. Czyżbyśmy wreszcie mieli nieskrępowany dostęp do raportów z wszystkich losowań? Byłoby to świetną wiadomością – każdy chętny mógłby sprawdzić, czy nie pojawiają się tam jakieś nieprawidłowości.

Niestety, Ministerstwo Sprawiedliwości wdrożyło w wyszukiwarce mechanizm utrudniający zautomatyzowane pobranie kompletu raportów. Co gorsza, rolę tę pełni reCAPTCHA od Google, co oznacza tak naprawdę, że polski obywatel pragnący pobrać dokument wytworzony przez polskie ministerstwo a przechowywany na serwerze w Polsce, musi poprosić o taką możliwość… amerykańską megakorporację.

Kategorie
Publicystyka

Na Marsa w jedną kadencję

Wyciek e-maili Michała Dworczyka, szefa kancelarii premiera, dają nam rzadką możliwość obejrzenia polskiej polityki „od kuchni”. Z najwyższym trudem powstrzymamy się od komentarza ogólnego, by skupić się na pojedynczym wątku pojedynczego wycieku – tego o polskiej misji na Marsa.

Dowiadujemy się bowiem, że polscy naukowcy starali się dotrzeć do polityków z pomysłem na misję kosmiczną nie tylko wskazując korzyści naukowe, lecz także „wymiar propagandowy krajowy i międzynarodowy nie do przecenienia”, ze szczególnym podkreśleniem sukcesu „w ramach jednej kadencji sejmowej”. Wyciek pochodzi z roku 2019 zaś autorzy mieli na myśli drugą kadencję rządów PiS. Wiemy, że ten pomysł nie wypalił, ale… w przypadku eksploracji kosmosu dobrze jest mieć plan B. Sprawdzimy, który z kolejnych rządów będzie mógł pokazać światu osiągnięcia polskiego przemysłu kosmicznego – i ogrzać się w propagandowym blasku sukcesu.

Kategorie
Publicystyka

O awaryjności dysków twardych

W ciągu minionych 20 lat kupiłem około dwunastu talerzowych i pięciu półprzewodnikowych dysków twardych. Spośród nich awarii w pierwszych tygodniach pracy doznały: jeden HDD (uszkodzone sektory i nietypowe odgłosy) oraz jeden SSD (nagły zgon bez żadnego ostrzeżenia). Konkluzje? Brak. Losy kilkunastu nośników to typowe dane anegdotyczne, z których nie da się wyciągnąć wniosków ogólnych.

Co innego, gdy spojrzymy na kilkaset tysięcy dysków twardych i przeanalizujemy dane opisujące ich awaryjność podczas wielu lat pracy. Ciężkiej pracy, dodajmy – mowa o serwerowniach Backblaze, firmy świadczącej usługi przechowywania danych w chmurze. Inżynierowie tej firmy co kwartał dzielą się statystykami żywotności używanych napędów. Ostatnio opublikowali jednak obserwacje i metryki, które mogą zaskoczyć wielu weteranów branży IT…

Kategorie
Szkolenie Zrób to sam

Szkolenie z automatyzacji pobierania danych z internetu

Aktualizacja: informacje o drugiej edycji szkolenia dostępne są tutaj: https://informatykzakladowy.pl/szkolenie-z-automatyzacji-pobierania-danych-z-internetu/


Pobieranie danych z internetu w sposób zautomatyzowany to coś, co mam przećwiczone na wiele sposobów. Przez pół roku co minutę rejestrowałem informacje o statystykach wypożyczeń samochodów elektrycznych w sieci Vozilla i wyszedł z tego raport na kilkanaście stron i kilkadziesiąt wykresów. Przez 21 miesięcy rejestrowałem co minutę aktywność Traficara a potem za pomocą technik uczenia maszynowego prognozowałem trendy obciążenia sieci – dzienne, tygodniowe czy sezonowe. Była też analiza popularności portalu Albicla, wiecie bo czytaliście.

Wiele projektów, wiele podejść, wiele pułapek w które wpadłem, abyście wy nie musieli! Niby automatyczne pobieranie danych nie jest trudne, to prawda. Czasem jednak nie znamy tego jednego narzędzia albo techniki, dzięki którym cała robota byłaby zrobiona dziesięć razy szybciej.

Tutaj wchodzę ja i dzielę się z wami swoim doświadczeniem oraz materiałami. Obejrzycie moje skrypty, dowiecie się jak ogarniam miliony plików, jak organizuję przetwarzanie danych – oraz masę innych rzeczy. Poniżej szczegółowa agenda, cennik (nietypowy!) oraz informacje o zapisach.

Kategorie
Publicystyka Statystyki

Kulisy bloga po raz trzeci czyli kolejne trzy kwartały za nami

Minęły trzy czwarte drugiego roku blogowania. Kolejny raz dzielę się informacjami zza kulis i kolejny raz ubolewam, że robi to tak niewielu autorów hobbystycznych serwisów tematycznych. Dajcie znać w komentarzach, u kogo jeszcze można poczytać podobne artykuły, jestem bardzo ciekaw cudzych doświadczeń.

W niniejszym tekście opisuję okres od początku lutego do końca października 2021 –  opublikowałem wówczas 26 artykułów. Gołym okiem widać jednak, że w ostatnim czasie teksty pojawiały się rzadziej, niż na początku roku. Dlaczego? Jak wpłynęło to na czytelnictwo? Zapraszam do lektury!

Kategorie
Publicystyka

Pliki poliglotyczne – prezentacja z OMH 2020

Co to jest plik poliglotyczny? To plik, który spełnia wymagania dwóch lub więcej formatów naraz, na przykład jest (jednocześnie) obrazkiem GIF i archiwum ZIP albo (jednocześnie!) dokumentem PDF, animacją SWF oraz obrazem dysku typu ISO zawierającym grę Tetris. W ramach ubiegłorocznej konferencji online Oh My Hack 2020 przedstawiłem prelekcję opowiadającą o plikach poliglotycznych – ich genezie, budowie czy sposobach konstruowania. Tradycyjnie nie zabrakło też licznych dygresji i ciekawostek.

Poniżej znajdziecie nagranie wideo prezentacji (50 minut) oraz informację, jak wziąć udział w losowaniu gratisowej wejściówki na edycję OMH 2021, która rozpocznie się już za miesiąc.

Kategorie
Administracja publiczna Publicystyka

Poznaliśmy algorytm losowania SLPS czyli… co dokładnie?

Fundacja Moje Państwo od roku 2017 walczy ze zmiennym szczęściem o ujawnienie algorytmu stojącego za Systemem Losowego Przydziału Spraw, programem komputerowym rozdzielającym sprawy sądowe między składy sędziowskie. Ministerstwo przez lata odmawiało jego publikacji, jednak w połowie września 2021 nagle poddało się – na stronie gov.pl umieszczono dokument o nazwie Algorytm_losowania_utworzony_na_podstawie_dokumentacji_analitycznej_v111.pdf, dostępny pod ścieżką Ministerstwo Sprawiedliwości → O ministerstwie → Informacje publiczne → Algorytm SLPS.

Czy rzeczywiście Ministerstwo ujawniło komplet informacji niezbędnych do odtworzenia sposobu działania kluczowego modułu systemu? A może ustępstwo było pozorne a my dostaliśmy zestaw niekompletnych i niespójnych informacji, które grają rolę listka figowego skrywającego nieprzejrzystość SLPS? Zapraszam do lektury mojej analizy dokumentu!

Kategorie
Publicystyka Zrób to sam

Litwo! Ojczyzno moja! Ty jesteś jak PNG 4K UHD!

To jedna z tych sytuacji, gdy w głowie pojawia się nietypowe pytanie i od tej chwili nie da się spokojnie żyć, dopóki nie znajdziemy odpowiedzi. Pytanie brzmiało: jak duża musi być bitmapa, aby zmieścił się na niej czytelny tekst poematu „Pan Tadeusz” Adama Mickiewicza. Też jesteście ciekawi? No to drążymy, zanim dotrze do nas, że to bez sensu!