Realizovaný projekt

Open source nástroj pro scraping a extrakci webových dat

dump-it je open source nástroj napsaný v Rustu, který dokáže z libovolného webu inteligentně vytáhnout strukturovaný obsah. Využívá sitemap, a když není k dispozici, pouští se do vlastního crawlování. Výstupem je čisté JSON, které zachovává hierarchii nadpisů, odstavců, seznamů, obrázků i formulářů.
Klient
Open source
Služby
Open source vývoj · Návrh CLI nástroje · Optimalizace výkonu
Kategorie
OPEN SOURCE
Štítky
RustTokioReqwestCLIWeb scrapingJSONOpen source
Abstraktní geometrická vizualizace sítě propojených webových stránek plynoucích do strukturovaných datových bloků na bílém pozadí

Co dump-it dělá

dump-it projde zadaný web a extrahuje jeho obsah do strukturovaného JSONu. Pokud existuje sitemap, využije ji pro rychlé a úplné pokrytí. Pokud ne, pustí se do inteligentního crawlování — sleduje odkazy v rámci domény, brání duplicitám a respektuje nastavené limity. U každé stránky zachovává hierarchii nadpisů, odstavců, seznamů, obrázků i formulářů včetně meta tagů. Obrázky automaticky stahuje a deduplikuje podle hashe.

Pro koho je nástroj určený

Využijí ho vývojáři, datoví analytici, SEO specialisté, obsahoví auditoři a výzkumníci, kteří potřebují rychle a programaticky získat strukturovaný obsah z webů. Hodí se na tvorbu datasetů pro trénování modelů, audit velkých sitemap i na migraci obsahu mezi CMS — tedy úlohy, které se jinak často píšou znovu a znovu.

Jak je postavený

Výkonnostní jádro stojí na Rustu s plnou LTO optimalizací. Asynchronní běh zajišťuje Tokio, HTTP spojení Reqwest, parsování HTML Scraper a CLI rozhraní Clap. Ve výchozím nastavení běží 10 paralelních requestů, ale concurrency, timeout, hloubka i maximum stránek jsou plně konfigurovatelné přes CLI argumenty. Kód je otevřený a žije na GitHubu.
Projekt podobného zaměření?

Rádi s vámi probereme rozsah a cenovou nabídku

Cenový odhad a časový rámec obvykle dodáme do dvou pracovních dnů.