Pixee Crawl
Fonctionnalités

Huit familles. Trente+ modules.

Activés selon le palier choisi. Tous interopérables, tous monitorés, tous documentés.

Moteurs de scraping

Trois moteurs combinés, sélectionnés selon la nature du site cible.

  • Playwright

    Pour les sites JS-heavy (PrestaShop moderne, Sylius, SPA). Browser headless full features.

  • httpx + lxml

    Pour les sites SSR rendus côté serveur. 3 à 5× plus rapide que Playwright, moins de ressources.

  • curl_cffi

    Pour les WAF agressifs. TLS fingerprinting impersonation (Chrome, Firefox, Safari).

  • Modes d'extraction

    full · price_specs · price_only · auto. Choisissez vitesse vs complétude par scraper.

  • Watchlist vs discovery

    Liste fermée EAN/URL pour focus prix · auto-crawl de catégories pour découvrir des produits.

Anti-détection

Trois tiers de stealth, bypass des principaux WAF et captchas du marché.

  • Stealth safe

    Playwright standard avec headers réalistes et viewport randomisé. Pour les sites sans protection forte.

  • Stealth advanced

    Recommandé

    rebrowser-playwright : patch des fuites Chromium courantes (navigator.webdriver, etc.).

  • Stealth camoufox

    Pro+

    Firefox anti-fingerprint custom. Pour les sites protégés par FingerprintJS, Akamai BMP, Cloudflare Turnstile.

  • Captcha solvers

    Pro+

    CapSolver API · reCAPTCHA v2 audio (open-source) · Cloudflare Turnstile bypass.

Résilience & auto-repair

Le moteur s'auto-surveille et s'auto-répare avant que vous ne soyez alerté.

  • ExtractionHealthTracker

    Score de qualité en rolling window. Une chute de 50%+ déclenche une alerte avant que la donnée ne soit corrompue.

  • SelectorDoctor

    Pro+

    Répare automatiquement les sélecteurs cassés par un changement de DOM. LLM-assisted, validé sur snapshots historiques.

  • Adaptive crawl-delay (EWMA)

    Le délai entre requêtes s'auto-ajuste aux temps de réponse du site. Vous respectez la charge sans tuner.

  • FIFO queue

    Max 6 scrapers concurrents, auto-drain. Pas de saturation du VPS, prédictible à grande échelle.

Proxies

Quatre stratégies de répartition, configurables sans toucher au code.

  • Round-robin

    Rotation séquentielle simple. Pour les sites tolérants ou les pools de proxies homogènes.

  • Weighted

    Répartition pondérée selon vos priorités (qualité, coût, géographie).

  • Failover

    Bascule automatique sur le proxy suivant en cas d'échec. Pour les pools hétérogènes.

  • Least-failures

    Recommandé

    Privilégie automatiquement les proxies les plus stables. Auto-apprentissage.

  • Latency test

    Mesure régulière de la latence par endpoint. Toggle par scraper, switch sans redémarrage.

Données

Pipeline d'extraction et d'export pensé pour les gros catalogues.

  • Pipeline assets

    B2B

    Capture des PDF (datasheets, manuels, certificats), upload vers S3 via Pixee PIM. OCR optionnel.

  • Exports streaming

    CSV · JSON · Excel. Streaming pour éviter les OOM sur les catalogues volumineux.

  • Upsert PostgreSQL

    PostgreSQL 16 async (asyncpg). Versioning des observations prix (time-series).

  • APScheduler

    Cron timezone-aware par scraper. Schedules indépendants, retries configurables.

Intégration

Sync native avec Pixee PIM. Aussi accessible via API REST authentifiée.

  • Sync Pixee PIM

    Natif

    Push automatique des produits + assets vers Pixee PIM via /api/sync. Réconciliation EAN/SKU.

  • API REST

    GET /api/products, GET /api/products/suppliers, GET /api/sync/status. Auth X-Hub-Api-Key.

  • Webhooks

    Enterprise

    Notifications sur fin de run, alerte qualité, drop de stock détecté.

Observabilité

Vous voyez ce qui se passe en temps réel, en agrégat et en historique.

  • Prometheus natif

    5 counters (runs, products, errors, retries, captchas) + 5 gauges (queue, health, latency, success rate, drift).

  • Logs SSE temps réel

    Server-Sent Events filtrables par scraper, niveau, date. Aucun rechargement.

  • Historique des runs

    Durée, produits new/updated/deleted, erreurs, captures écran sur échec. Audit complet.

Sécurité & RGPD

Hébergement France, conformité RGPD, credentials chiffrés en base.

  • Credentials chiffrés

    Vault interne pour les comptes scraping fournisseurs. Pas de secret en clair dans la DB.

  • Hébergement France

    VPS dédié OVH, Coolify, backups quotidiens chiffrés. Conformité RGPD by design.

  • Audit trail

    Trace complète des accès, runs, modifications de config. Exportable pour audit externe.