fbpx

Szkolenie z automatyzacji pobierania danych z internetu

Przedsprzedaż drugiej edycji szkolenia została zakończona. Zapisz się na newsletter, aby nie przegapić okienka sprzedażowego na przełomie listopada/grudnia 2022.

Tomasz Zieliński

Znajomość komend wget i curl to za mało, szczególnie, gdy w grę wchodzą miliony żądań i miliony plików

Poznaj sekrety efektywnego scrapowania i obróbki danych! Szkolenie prowadzi Tomasz Zieliński, autor bloga Informatyk Zakładowy

Nauczysz się:

  • pisać niezawodne skrypty i automaty
  • monitorować ich działanie
  • wykrywać anomalie w pobieranych danych
  • zarządzać zbiorami danych o zróżnicowanym wolumenie, od tysięcy po miliardy rekordów

Poznasz:

  • sposoby na efektywne scrapowanie i omijanie mechanizmów wykrywających roboty
  • najczęstsze problemy podczas parsowania formatów TXT, CSV, TSV, JSON, XLS, PDF
  • typowe błędy parsowania i sposoby na ich uniknięcie
  • metody wykrywania wąskich gardeł spowalniających przetwarzanie danych
  • sztuczki pozwalające na efektywniejszą realizację zadań

Szkolenie będzie dostępne w formule online, nagrania wideo i materiały dodatkowe zostaną opublikowane na platformie szkoleniowej dostępnej przez przeglądarkę internetową.

Do kogo kierowane jest szkolenie?

Jeśli jesteś

  • programistą odpowiedzialnym za automatyzację procesu przetwarzania danych
  • analitykiem znużonym regularnym pobieraniem i ręcznym przetwarzaniem plików
  • pracownikiem wywiadowni gospodarczej szukającym ukrytych informacji
  • ekonomistą agregującym raporty z różnych źródeł

… to szkolenie może być właśnie dla ciebie! Zerknij do spisu treści poniżej!

Co można zrobić mając wiedzę ze szkolenia?

Umiejętne scrapowanie danych może prowadzić do wielu interesujących odkryć. Oto trzy moje publikacje oparte o dane pobierane z internetu:

1. Analiza aktywności wypożyczalni samochodów elektrycznych Vozilla (252 tysiące plików, 30 milionów obserwacji)

Przez pół roku co minutę pobierałem informacje o dostępności samochodów w nieistniejącej już wrocławskiej wypożyczalni Vozilla. Mając do dyspozycji jedynie te dane byłem w stanie wyznaczyć rzeczywisty zasięg Nissanów Leaf w jeździe miejskiej, określić zależność zasięgu od temperatury, wyznaczyć godziny szczytu a nawet oszacować dzienne przychody wypożyczalni.

Zapraszam do lektury raportu (format PDF)

Szacunkowe dzienne przychody wypożyczalni Vozilla
Zasięg Nissana Leaf w zależności od temperatury powietrza

2. Wykorzystanie danych o wypożyczeniach aut Traficara do budowy modelu predykcyjnego (milion plików, 100 milionów obserwacji, miliard punktów danych)

W oparciu o dane scrapowane przez 22 miesiące przygotowałem predykcyjny model Machine Learningowy przewidujący utylizację floty Traficara w zależności od pory dnia, dnia tygodnia i sezonowości rocznej. Średni błąd predykcji nie przekraczał 2.5 punktu procentowego, co było niezłym wynikiem. Tutaj blogonotka (po angielsku) opisująca procesu modelu ML, poniżej wizualizacja predykcji na tle rzeczywistej aktywności floty podczas jednej doby.

3. Analiza popularności serwisu Albicla

Kilka sztuczek wystarczyło, by pobrać wszystkie publiczne posty oraz utworzyć listę wszystkich aktywnych użytkowników sieci społecznościowej Albicla. Na tej bazie przeprowadziłem analizę w której ujawniłem m.in. systematyczny spadek liczby zakładanych kont oraz malejącą liczbę aktywnych użytkowników (przy – ciekawostka – w miarę stabilnej liczbie wpisów i komentarzy).

Jednym z cenniejszych elementów szkolenia jest lista moich wpadek, napotkanych problemów i nieprzewidzianych trudności – wiele z nich cofało mnie o długie godziny i dni pracy. Gdybym usłyszał to, co wiem teraz, przed rozpoczęciem pracy nad Vozillą, raport powstałby dobre dwa tygodnie wcześniej…

Co trzeba umieć?

Większość narzędzi prezentowanych podczas szkolenia będzie uruchamiana z wiersza poleceń, konieczne będzie choćby minimalne doświadczenie w jego użyciu. Wykorzystamy też skrypty powłoki – pliki BAT uruchamiane z linii komend Windows albo skrypty bash pod Linuksem (wystarczy znać jeden z tych systemów). Musisz wiedzieć, czym są pliki i foldery.

Mile widziana – choć niekonieczna – jest umiejętność programowania w dowolnym języku. Warto mieć ogólne pojęcie, co to jest HTML, HTTP, CSV czy XML, ale w programie szkolenia znajdzie się lekcja dla mniej zaawansowanych, wprowadzająca wszystkie wymagane pojęcia.

Idealny uczestnik scrapował już dane i napotykał problemy – teraz chciałby dostać sprawdzone receptury.

Co nowego będzie w drugiej edycji?

Pierwsza edycja była nadawana na żywo, lecz znaczna większość uczestników korzystała z udostępnionego nagrania. Tym razem szkolenie zostanie zarejestrowane wcześniej i opublikowane w platformie edukacyjnej online dostępnej przez przeglądarkę.

Dzięki tej zmianie w szkoleniu pojawią się bardziej złożone przykłady i demonstracje. Podział na osobne lekcje ułatwi dostęp do wybranych nagrań, dostępne będą linki do prezentowanych narzędzi i przykładowe pliki do samodzielnych ćwiczeń.

Treść szkolenia zostanie wzbogacona o nowe narzędzia i dodatkowe przykłady – m.in. kompletny zestaw skryptów pozwalających na przyrostowe pobieranie, przetwarzanie i publikowanie danych. Zademonstruję w nich, jak unikać powtarzania już zrealizowanych zadań i jak wznawiać przetwarzanie od wybranego kroku. Inną nowością będzie prosty scraper w modelu serverless, zrealizowany w chmurze AWS.

W pierwszej edycji duże zainteresowanie wzbudził fragment o ustawach i przepisach prawa, dostałem kilka pytań dotyczących legalności scrapowania różnego rodzaju danych. Jedyne, co mogłem odpowiedzieć, to „idź do prawnika”. Tym razem prawnik przyjdzie do nas, o wypowiedź ekspercką poprosiłem r.pr. Mirelę Perczak. Dowiemy się, dlaczego przeczytanie kilku ustaw nie wystarczy programiście do zrozumienia systemu prawnego i dlaczego warto odwiedzić kancelarię prawną zanim zrobimy coś głupiego.

Jak wygląda typowy rozdział szkolenia?

Oto darmowy rozdział pt. „Scrapowanie długoterminowe” z pierwszej edycji. Nagranie trwa ponad 40 minut. Sprawdzisz, czy styl i tempo przekazywania wiedzy są dla ciebie odpowiednie.

Spis treści szkolenia

  1. Wstęp
    • Omówienie zakresu szkolenia
  2. Zagadnienia prawne
    • Cztery ustawy, które warto znać przed scrapowaniem
      • Ustawa o dostępie do informacji publicznej
      • Ustawa o prawie autorskim i prawach pokrewnych
      • Ustawa o ochronie baz danych
      • Rozdział XXXIII Kodeksu Karnego
    • Informacja publiczna do ponownego wykorzystania
    • Rozmowa z radcą prawnym – dlaczego o interpretację przepisów warto zapytać prawnika i dlaczego lepiej zapobiegać problemom (prawnym) niż je potem odkręcać
  3. Krótkie przypomnienie podstaw protokołu HTTP
    • komendy HTTP
    • żądanie
    • odpowiedź
    • nagłówki
    • ciasteczka
    • F12 w przeglądarce
    • Fiddler / Charles
  4. Rekonesans i dobre wychowanie
    • Jak się rozglądać i czego szukać
    • Jak być dobrym robotem
    • Jak być dobrym obywatelem
  5. Podstawy scrapowania
    • Wady i zalety różnych formatów: TXT/CSV/TSV/JSON/YAML/XML/XLS/PDF
    • W pierwszej edycji PDF był wymieniony dla jaj, ale… czasem PDF-y dają się sensownie parsować, w drugiej edycji zademonstruję kilka stosownych narzędzi
    • Zastosowania różnych formatów, ramka danych kontra struktura drzewiasta
    • Locale i dlaczego ich nie znosimy
    • REST kontra GraphQL kontra surówka
    • Enumeracja zasobów
  6. Efektywne scrapowanie
    • linia komend – curl czy wget
    • kilka przydatnych sztuczek curla
    • klonowanie zapytań z przeglądarki / proxy
    • NAJWAŻNIEJSZY trik dotyczący curla
    • co trudno zrobić w skryptach
    • metody zaawansowane – headless Chrome, puppeteer
  7. Scrapowanie długoterminowe
    • jak scrapować API co minutę przez 20 miesięcy
    • alarmy, gdy coś nie działa (z przykładami „zrób to sam” i SaaS)
    • mój skrypt, którym scrapowałem Vozillę i Traficara
    • krótko o cronie
    • skąd wziąć serwer z shellem
    • zużycie dysku i dlaczego nasz dostawca shella może nas nie polubić
    • przykład scrapowania serverless w chmurze AWS
  8. Uwierzytelnianie
    • jak zrobić, żeby skrypt udawał człowieka
    • basic auth, cookie, tokeny, refresh tokeny i reszta
    • MAC/HMAC/JWT
  9. Sposoby na omijanie limitów ruchu
    • typy blokad i dławików
    • skąd wziąć wiele IP
    • jeszcze raz o udawaniu przeglądarki
    • wykrywaczki robotów, captcha
    • wyciąganie tokena z apki mobilnej
  10. Organizacja pobranych plików
    • ile plików to za dużo plików?
    • gdzie i jak trzymać milion plików?
    • jak przetwarzać pliki mające 10 MB, 100 MB, 1 GB, 10 GB, 100 GB, 1 TB
    • na co trzeba uważać gdy pliki są duże lub za duże
    • czym edytować za duże pliki
    • kompresja – czym, dlaczego, kiedy
  11. Organizacja przetwarzania danych
    • Co zbierać, co kasować, co porzucać
    • Weryfikacja tego, co zapisano
    • Wykrywanie usterek i anomalii
    • Eksperymentowanie oraz automatyzacja
    • Przykład iteracyjnej analizy i pobierania
    • Na jak dużej próbce danych pracować
    • NAJWAŻNIEJSZA porada dotycząca przetwarzania
    • Dane nie mieszczą się w pamięci – co teraz? Trzy rozwiązania!
  12. Optymalizacja przetwarzania
    • HDD kontra SSD w praktyce
    • CPU-bound kontra I/O-bound
    • Porady dotyczące wielowątkowości
  13. Narzędzia, które warto znać
    • kilkanaście metod wyciągania danych z różnych formatów
    • kilkanaście mało znanych narzędzi, które bardzo w tym pomogą
    • łączenie metod i narzędzi, od szczegółu do ogółu
  14. Pułapki i sztuczki
    • wszystko, co nie zmieściło się w poprzednich rozdziałach

Łącznie nagrania wideo zajmą ok. 8-9 godzin.

Opinie uczestników

Oto kilka wypowiedzi uczestników pierwszej edycji szkolenia:

Szkolenie MEGA! Merytorycznie bomba, ekspertem nie jestem i długo nie będę ale szkolenie porządnie poszerzyło horyzonty, usystematyzowało wiedzę, warte swojej ceny na 100%, a do niektórych slajdów i filmu offline wracam co jakiś czas.

Tomek fajnie wplata różne poboczne narzędzia i rozwiązania, które potem rozkminione dokładniej – same w sobie stają się bardzo dużą pomocą w pracy: slido, cronitor.io, wolframalpha, bonjoro, hubspot, selenium, dreamhost itd. Po każdym jego kursie moja baza z listą kolejnych tematów do zgłębienia powiększa się o 25 nowych rekordów 😊

Wskazówka o ustawianiu strefy czasowej zawsze na UTC – bezcenna 👌

Bardzo dobre i wartościowe szkolenie z niecodzienną ceną (przez co było dostępne praktycznie dla każdego). Świetnie przemyślana treść, ułożona w logiczny ciąg. Prowadzący chętnie dzieli się swoimi doświadczeniami i wplata dygresje (cały czas pozostając w tematyce około szkoleniowej). Wykład zawierał również szybki pokaz możliwości niektórych narzędzi lub po prostu sygnalizował istnienie danego rozwiązania, zachęcając do samodzielnej pracy z np. dokumentacją (bardzo ważna umiejętność).

Sama organizacja szkolenia na wysokim poziomie. Dobry kontakt z organizatorem, odpowiednia jakość audio i video. Czytelna prezentacja bez zbędnych wodotrysków (udostępniona po szkoleniu) z zaznaczonymi najważniejszymi rzeczami oraz masą linków. Jednym słowem polecam!

Szkolenie w sposób jasny i ciekawy objaśnia podstawy scrapingu, uczy dobrych praktyk i wskazuje kierunek osobom, które chcą rozwijać swoją wiedzę w tym temacie. Prowadzący to człowiek z potężnym doświadczeniem, którym chętnie się dzieli. Polecam.

Model biznesowy zasugerował wysoką jakość szkolenia, a wiedza prelegenta tylko ją potwierdziła. Bardzo polecam wszystkim tym, którzy w danym temacie mają odrobinę wiedzy, ale z jakichś względów nie mogą przejść dalej – szkolenie na pewno pobudzi chęć do dalszego rozwijania w danym kierunku

Cena szkolenia = twoja dniówka

Szkolenie kosztuje twoją jedną dniówkę. Czemu tak dziwnie? Zdobyta wiedza pozwoli ci zaoszczędzić co najmniej dzień pracy, więc życzę sobie dostać właśnie tyle. Gdybym od początku miał wiedzę, którą teraz się dzielę, sam zaoszczędziłbym całe tygodnie…

Przedsprzedaż drugiej edycji szkolenia została zakończona.

Zapisz się na newsletter, aby nie przegapić najbliższego okienka sprzedażowego na przełomie listopada i grudnia 2022.

Oczywiście nie musisz przedstawiać żadnego zaświadczenia o zarobkach – w koszyku sam podasz odpowiednią kwotę. Jeśli pracujesz na etacie, zapłać 1/20 swojej pensji brutto; jeśli B2B, cena wynosi jedną dniówkę lub osiem stawek godzinowych. Gdy nie możesz lub nie chcesz zdradzać zarobków, zaokrąglij tę kwotę w górę.

Gdy przejdziesz do koszyka, cena domyślnie ustawiona będzie na kwotę 580 zł – odpowiada to pensji 11600 zł brutto. Tyle – wg raportu o płacach w serwisie JustJoinIT – zarabiał w roku 2021 przeciętny middle developer. A płace od tamtego czasu wzrosły!

Minimalna cena szkolenia w przedsprzedaży to 325 zł, co odpowiada pensji 6500 zł brutto. Tyle wynosiła średnia pensja początkującego developera.

Uwaga – NIGDY nie będzie taniej. W przyszłości cena będzie tylko rosnąć.

Przedsprzedaż drugiej edycji szkolenia została zakończona.

Zapisz się na newsletter, aby nie przegapić najbliższego okienka sprzedażowego na przełomie listopada i grudnia 2022.

Największa kwota, jaką jeden z uczestników zapłacił za udział w pierwszej edycji szkolenia, wyniosła 2000 zł (pensja rzędu 40000 zł).

Przedsprzedaż

Przedsprzedaż została zakończona. Od razu po zakupie otrzymasz fakturę VAT i dane dostępowe do platformy szkoleniowej, ale materiały pojawią się tam na przełomie listopada i grudnia 2022 – informację o tym otrzymasz osobnym mailem.

Przedsprzedaż drugiej edycji szkolenia została zakończona.

Zapisz się na newsletter, aby nie przegapić najbliższego okienka sprzedażowego na przełomie listopada i grudnia 2022.

Po wydaniu szkolenia otworzy się ostatnie w tym roku okienko sprzedażowe, które potrwa około 10 dni. Przypomnę – nigdy nie będzie taniej, niż teraz. W grudniu może być drożej.

Gwarancja satysfakcji

Jestem pewny wysokiej jakości szkolenia, więc dostajesz gwarancję satysfakcji. Jeśli uznasz, że szkolenie nie było warte zapłaconej ceny, dostaniesz zwrot pieniędzy. Bez zadawania pytań, bez żalu ani wyrzutów. Na taką decyzję będziesz mieć 30 dni.

Oczywiście termin zaczniemy liczyć dopiero, gdy dostaniesz dostęp do kompletnego szkolenia. Jeśli rozmyślisz się wcześniej – też dostaniesz zwrot.

Ty niczym nie ryzykujesz!

Całość ryzyka biorę na siebie. To samo zrobiłem podczas pierwszej edycji szkolenia – nikt nie zażądał zwrotu pieniędzy.

Wynik finansowy pierwszej edycji szkolenia

59483 zł

Pierwsza edycja szkolenia przyniosła niemal 60 tysięcy złotych, o wszystkich szczegółach przeczytasz w tej blogonotce. Wynik finansowy drugiej edycji też będzie jawny, w osobnym artykule opiszę doświadczenia zdobyte podczas jej przygotowania i sprzedaży.

Najczęściej zadawane pytania

Czy będą jakieś zniżki dla uczniów, studentów lub bezrobotnych?

Nie. To specjalistyczne szkolenie kierowane głównie do branży IT.

Cena minimalna to więcej, niż moja dniówka. Czy kupię szkolenie taniej?

Nie. Cena jest dopasowana do możliwości grupy docelowej.

Czy można kupić szkolenie na raty?

Nie. Jeśli musisz zadłużyć się aby opłacić szkolenie, to raczej masz pilniejsze wydatki. Odłóż udział w szkoleniu na przyszłość, będą kolejne edycje.

Czy na Black Friday będzie taniej? Albo na Mikołajki albo w przyszłym roku?

Nigdy nie będzie taniej. Cena minimalna może tylko rosnąć.

Last minute?

Nie. Nic tak nie wkurza, jak informacja, że szkolenie kupione z dużym wyprzedzeniem zostaje przecenione kilka dni przed datą emisji – to robienie w trąbę najwierniejszych klientów. Serio, nigdy nie będzie taniej.

Czy uczestnicy pierwszej edycji dostaną dostęp do edycji drugiej?

Tak, gratisowo. Informacje dotrą do uczestników mailem po premierze szkolenia.

Przez jaki okres będę miał dostęp do nagrania?

Bezterminowo.

Kto dokładnie sprzedaje szkolenie?

FTL Software Tomasz Zieliński
Poleska 47/13
51-354 Wrocław
NIP 899-208-16-48

Skąd wiesz, czy ktoś cię nie oszuka i nie zaniży ceny?

Ludzie są uczciwi a materiał ze szkolenia pozwoli zaoszczędzić więcej, niż jeden dzień pracy. To dobra oferta.

Czy szkolenie może opłacić pracodawca?

Oczywiście. Jeśli decyzja o finansowaniu zajmuje więcej czasu, skontaktuj się e-mailem przed końcem przedsprzedaży. Tutaj znajdziesz dokument PDF ze skrótem informacji o szkoleniu, możesz wysłać go przełożonemu.

Czy mogę dostać fakturę pro-forma?

Tak, proszę o kontakt e-mailem.

Czy mogę kupić udział w szkoleniu dla kilku osób naraz?

Tak, proszę o kontakt e-mailem.

Dlaczego faktura, którą dostałem, nie ma doliczonego podatku VAT?

Nie jestem płatnikiem VAT. Podstawa prawna – zwolnienie podmiotowe z VAT na podstawie art. 113 ust. 1 ustawy o VAT. Moja działalność gospodarcza ma niewielkie obroty. Ja nie doliczę VAT a ty go nie odliczysz.

Dlaczego sprzedawcy nie ma na białej liście podatników VAT?

Patrz wyżej – nie jestem płatnikiem VAT (art. 133 ust. 1 ustawy).

Kto prowadzi szkolenie?

Szkolenie przygotował i prowadzi Tomasz Zieliński, autor bloga Informatyk Zakładowy. Jest on zawodowym programistą od 2003 roku, był wykładowcą akademickim, bywa trenerem na szkoleniach Sekuraka i prelegentem na konferencjach IT.

Wielokrotnie realizował projekty związane z pobieraniem i automatycznym przetwarzaniem znaczących ilości danych. Z naprawdę dużymi zbiorami miał do czynienia podczas pracy dla Microsoftu nad wyszukiwarką internetową BING.

Przedsprzedaż drugiej edycji szkolenia została zakończona.

Zapisz się na newsletter, aby nie przegapić najbliższego okienka sprzedażowego na przełomie listopada i grudnia 2022.

Kontakt

W razie jakichkolwiek pytań proszę o kontakt e-mailowy na adres tomek@informatykzakladowy.pl