Realizovaný projekt
Open source nástroj pro scraping a extrakci webových dat
dump-it je open source nástroj napsaný v Rustu, který dokáže z libovolného webu inteligentně vytáhnout strukturovaný obsah. Využívá sitemap, a když není k dispozici, pouští se do vlastního crawlování. Výstupem je čisté JSON, které zachovává hierarchii nadpisů, odstavců, seznamů, obrázků i formulářů.
Co dump-it dělá
dump-it projde zadaný web a extrahuje jeho obsah do strukturovaného JSONu. Pokud existuje sitemap, využije ji pro rychlé a úplné pokrytí. Pokud ne, pustí se do inteligentního crawlování — sleduje odkazy v rámci domény, brání duplicitám a respektuje nastavené limity. U každé stránky zachovává hierarchii nadpisů, odstavců, seznamů, obrázků i formulářů včetně meta tagů. Obrázky automaticky stahuje a deduplikuje podle hashe.
Pro koho je nástroj určený
Využijí ho vývojáři, datoví analytici, SEO specialisté, obsahoví auditoři a výzkumníci, kteří potřebují rychle a programaticky získat strukturovaný obsah z webů. Hodí se na tvorbu datasetů pro trénování modelů, audit velkých sitemap i na migraci obsahu mezi CMS — tedy úlohy, které se jinak často píšou znovu a znovu.
Jak je postavený
Výkonnostní jádro stojí na Rustu s plnou LTO optimalizací. Asynchronní běh zajišťuje Tokio, HTTP spojení Reqwest, parsování HTML Scraper a CLI rozhraní Clap. Ve výchozím nastavení běží 10 paralelních requestů, ale concurrency, timeout, hloubka i maximum stránek jsou plně konfigurovatelné přes CLI argumenty. Kód je otevřený a žije na GitHubu.
Projekt podobného zaměření?
Rádi s vámi probereme rozsah a cenovou nabídku
Cenový odhad a časový rámec obvykle dodáme do dvou pracovních dnů.
