Rychlý web scraper v Rustu

Realizovaný projekt

Open source nástroj pro scraping a extrakci webových dat

dump-it je open source nástroj napsaný v Rustu, který dokáže z libovolného webu inteligentně vytáhnout strukturovaný obsah. Využívá sitemap, a když není k dispozici, pouští se do vlastního crawlování. Výstupem je čisté JSON, které zachovává hierarchii nadpisů, odstavců, seznamů, obrázků i formulářů.

Otevřít na GitHubu Chci něco podobného

Klient: Interní
Kategorie: OPEN SOURCE
Služby: Open source vývoj
Návrh CLI nástroje
Optimalizace výkonu
Štítky: RustTokioReqwestCLIWeb scrapingJSONOpen source

Co dump-it dělá

dump-it projde zadaný web a extrahuje jeho obsah do strukturovaného JSONu. Pokud existuje sitemap, využije ji pro rychlé a úplné pokrytí. Pokud ne, pustí se do inteligentního crawlování — sleduje odkazy v rámci domény, brání duplicitám a respektuje nastavené limity. U každé stránky zachovává hierarchii nadpisů, odstavců, seznamů, obrázků i formulářů včetně meta tagů. Obrázky automaticky stahuje a deduplikuje podle hashe.

Pro koho je nástroj určený

Využijí ho vývojáři, datoví analytici, SEO specialisté, obsahoví auditoři a výzkumníci, kteří potřebují rychle a programaticky získat strukturovaný obsah z webů. Hodí se na tvorbu datasetů pro trénování modelů, audit velkých sitemap i na migraci obsahu mezi CMS — tedy úlohy, které se jinak často píšou znovu a znovu.

Jak je postavený

Výkonnostní jádro stojí na Rustu s plnou LTO optimalizací. Asynchronní běh zajišťuje Tokio, HTTP spojení Reqwest, parsování HTML Scraper a CLI rozhraní Clap. Ve výchozím nastavení běží 10 paralelních requestů, ale concurrency, timeout, hloubka i maximum stránek jsou plně konfigurovatelné přes CLI argumenty. Kód je otevřený a žije na GitHubu.

Projekt podobného zaměření?

Rádi s vámi probereme rozsah a cenovou nabídku

Cenový odhad a časový rámec obvykle dodáme do dvou pracovních dnů.

Nezávazná poptávka Zpět na portfolio

Další projekty

Pokračujte v prohlížení

Náhled platformy VORKO s přehledem úklidových brigád a čistě navrženým rozhraním pro rychlé vyhledávání

Předchozí projekt

Webová platforma, která spojuje firmy s úklidovými brigádníky

Další projekt

Weby & e-shopy

Aplikace

Design & data

Sídlo

Kontaktní adresa

Telefon

Email

Otevírací doba

Rychlý web scraper v Rustu

Open source nástroj pro scraping a extrakci webových dat

Co dump-it dělá

Pro koho je nástroj určený

Jak je postavený

Rádi s vámi probereme rozsah a cenovou nabídku

Pokračujte v prohlížení

Webová platforma, která spojuje firmy s úklidovými brigádníky

Prezentační web pro IT firmu s přímým sběrem leadů do CRM

Sídlo

Kontaktní adresa

Telefon

Obchodní dotazy

Nahlásit chybu

Kariéra

Objevte

Služby