4.4 L'âme de Python face à PHP : Flux, Décorateurs et Générateurs

On a vu les mécanismes — yield, @decorator. Avant de passer à la CLI, une pause pour comprendre pourquoi ces outils existent et ce qu'ils révèlent de la philosophie du langage. Comprendre l'âme d'un langage, c'est arrêter de traduire et commencer à penser dans ce langage.

1. Deux langages, deux raisons d'être

PHP et Python sont deux bons langages — mais ils n'ont pas été pensés pour le même monde. Ce qui diffère, ce n'est pas tant ce qu'ils peuvent faire que ce pourquoi ils ont été optimisés.

PHP est né pour le Web. Son ADN historique est le cycle Request → Traitement → Response : une requête arrive, on construit une réponse, tout meurt. Le script s'exécute de A à Z, vite, puis la mémoire est libérée. C'est un modèle en blocs : on charge, on traite, on retourne. Aujourd'hui PHP a beaucoup évolué — il peut tourner en CLI, en workers long-lived avec RoadRunner ou Swoole, et même faire du streaming avec SplFileObject. Mais son écosystème, ses conventions, et ses frameworks restent centrés sur le Web.

Python a été pensé pour l'automatisation universelle. Scripts système, data science, machine learning, scraping, orchestration d'infrastructure — des domaines où les données sont massives et où charger tout en mémoire d'un coup n'est pas une option. Python est un langage de flux : il préfère faire circuler la donnée plutôt que la stocker. Ça ne l'empêche pas de faire du web (Flask, Django, FastAPI sont excellents) — mais là encore, c'est une question d'ADN et d'écosystème.

La différence n'est pas une limite technique — c'est une culture. Et cette culture explique pourquoi Python a naturalisé les générateurs et les décorateurs au cœur du langage, là où PHP les a ajoutés comme features optionnelles.

2. Le secret du `yield` : le marque-page

Pour comprendre ce que yield change vraiment, partons du problème. Sans générateur, la façon naïve de lire un fichier charge tout en mémoire d'un coup :

def lire_tout(fichier: str) -> list:
    with open(fichier) as f:
        return list(f)   # list() force le chargement complet — tout en RAM immédiatement

En Python moderne, for line in f: est déjà lazy par défaut — un fichier ouvert est un itérateur natif, il lit une ligne à la fois. list(f) est la façon explicite de forcer le chargement complet, ce qu'on fait ici uniquement pour montrer le contraste.

Avec yield, on exploite cette nature lazy et on la propage à la fonction entière :

def lire_flux(fichier: str):
    with open(fichier) as f:
        for ligne in f:
            yield ligne.strip()   # ← Python s'arrête ici, rend la valeur, et attend
            #                         au prochain next(), il reprend exactement ici

Ce "freeze" repose sur ce qu'on appelle un Stack Frame. Quand Python suspend une fonction générateur, il conserve en mémoire :

La position exacte dans le code (à quelle ligne on s'est arrêté)
Les variables locales à cet instant (ligne, f, etc.)
Le contexte d'exécution complet

C'est le marque-page : le livre reste ouvert à la bonne page. En pratique, pour un fichier de 10 millions de lignes :

## Approche liste — 10M de lignes chargées en RAM avant le premier print
lignes = lire_tout("access.log")       # peut saturer la mémoire
for l in lignes: print(l)

## Approche générateur — 1 seule ligne en RAM à la fois
for l in lire_flux("access.log"): print(l)   # même résultat, ~0 RAM supplémentaire

La différence concrète :

Approche liste     → RAM : taille_fichier × taille_moyenne_ligne
Approche générateur → RAM : taille_d_une_ligne + overhead_stack_frame (≈ quelques Ko)

L'objet générateur lui-même a un coût (sa stack frame suspendue). Pour un seul générateur c'est dérisoire — mais créer des millions d'objets générateurs simultanément a un petit coût non nul. Comparé à une liste de 10M de lignes, c'est négligeable.

Maintenant que le mécanisme est clair : PHP a yield depuis PHP 5.5 et peut faire la même chose. Voilà l'équivalent PHP :

// PHP — approche naturelle : tout en mémoire
function lireFichier(string $chemin): array {
    return file($chemin, FILE_IGNORE_NEW_LINES);
}

// PHP peut aussi faire du lazy avec SplFileObject — mais c'est moins idiomatique
function lireFlux(string $chemin): Generator {
    $f = new SplFileObject($chemin);
    while (!$f->eof()) {
        yield $f->fgets();
    }
}

La différence : en PHP, lireFlux est une curiosité qu'on sort pour les gros fichiers. En Python, lire_flux est la façon normale de faire. Ce n'est pas une question de syntaxe — c'est une question de culture.

3. L'écosystème lazy : emballer et différer

Les décorateurs et les générateurs ne sont pas deux features indépendantes — ils incarnent la même philosophie. Les deux répondent à : comment éviter de faire plus que nécessaire ?

Les décorateurs : emballer plutôt que dupliquer

Sans décorateur, le même code transversal se répète dans chaque fonction :

# Sans décorateur — répétition, fragile, non-DRY
def parse_pip(raw: str):
    debut = time.perf_counter()
    # ... logique ...
    print(f"parse_pip : {time.perf_counter() - debut:.4f}s")

def parse_gomod(raw: str):
    debut = time.perf_counter()
    # ... logique ...
    print(f"parse_gomod : {time.perf_counter() - debut:.4f}s")

# Avec décorateur — emballé une fois, appliqué partout
@timer
def parse_pip(raw: str): ...

@timer
def parse_gomod(raw: str): ...

Le décorateur enveloppe un comportement transversal (logging, timing, retry, cache) sans polluer la logique métier. C'est l'approche Python du principe DRY.

Les générateurs : différer plutôt que précalculer

# Eager — tout calculé maintenant, même si on n'utilise que le premier
carres = [x**2 for x in range(1_000_000)]   # 1M éléments en RAM
premier = carres[0]

# Lazy — rien n'est calculé tant qu'on n'y touche pas
carres = (x**2 for x in range(1_000_000))   # 0 calcul fait
premier = next(carres)                       # 1 seul calcul effectué

Les deux outils poussent dans la même direction : ne faire que ce qui est nécessaire, au moment où c'est nécessaire.

4. L'analogie du pipeline — décorateurs et générateurs ensemble

Imagine une chaîne de montage : chaque ouvrier reçoit une pièce, la transforme, la passe au suivant — sans attendre que toutes les pièces soient fabriquées. C'est ce que font des générateurs chaînés. Et c'est là qu'on voit les deux outils travailler ensemble.

import re
from utils.decorators import timer

def lire_lignes(fichier: str):
    """Étape 1 — source : lit une ligne à la fois."""
    with open(fichier) as f:
        yield from f   # délègue à l'itérateur natif du fichier

def filtrer_entetes(lignes):
    """Étape 2 — filtre : ignore les lignes d'en-tête."""
    for ligne in lignes:
        if not ligne.startswith('#') and ligne.strip():
            yield ligne

def extraire_composants(lignes):
    """Étape 3 — transformation : parse chaque ligne."""
    for ligne in lignes:
        match = re.search(r"(\S+)\s+([\d\.]+)", ligne)
        if match:
            yield match.group(1), match.group(2)

# @timer + pipeline : le décorateur mesure le temps total car list()
# force l'exécution complète de tous les générateurs d'un coup
@timer
def traiter_fichier(fichier: str) -> list:
    lignes     = lire_lignes(fichier)
    filtrees   = filtrer_entetes(lignes)
    composants = extraire_composants(filtrees)
    return list(composants)   # ← c'est ici que les générateurs s'exécutent vraiment

composants = traiter_fichier("scanner.txt")
# [timer] traiter_fichier    0.0012s
for nom, version in composants:
    print(f"{nom} → {version}")

Le @timer enveloppe la fonction qui consomme le pipeline — il mesure le temps total d'exécution parce que list() force les générateurs à s'exécuter jusqu'au bout. Décorateurs et générateurs se complètent : les uns enveloppent le comportement, les autres diffèrent le calcul.

Ce qui se passe à chaque itération dans list(composants) :

list() demande une valeur à extraire_composants
  ↓ extraire_composants demande une ligne à filtrer_entetes
    ↓ filtrer_entetes demande une ligne à lire_lignes
      ↓ lire_lignes lit 1 ligne du fichier → remonte dans la chaîne
    ↑ filtrer_entetes filtre → remonte si ok
  ↑ extraire_composants parse → yield (nom, version)
↑ list() reçoit (nom, version) → recommence

Point subtil — with open dans un pipeline

Le with open dans lire_lignes reste ouvert tant que le générateur vit. Le fichier n'est fermé que quand le pipeline est épuisé ou détruit. Si tu interromps prématurément (break), Python garantit la fermeture via le garbage collector — mais le fichier reste ouvert pendant toute la durée de vie du pipeline.

Le revers de la médaille : le débogage

Un pipeline lazy est élégant — mais plus difficile à déboguer. Si une erreur survient à l'étape 3, la stack trace remonte à travers tous les yield. Les données n'existent pas encore quand on construit le pipeline, donc on ne peut pas les inspecter avec un print() à mi-chemin.

Solution : convertir temporairement une étape en liste pour inspecter (list(filtrees)), puis re-basculer en générateur. Dans pyCycloneFlow, une erreur silencieuse dans un générateur peut produire un SBOM incomplet sans lever d'exception — d'où l'importance des tests sur __wrapped__ vus au chapitre précédent.

En Python, on ne cherche pas à stocker la donnée — on cherche à la faire circuler. Mais circuler avec rigueur.

Pour pyCycloneFlow, c'est exactement ce modèle : lire un fichier de scan, filtrer, parser, produire un SBOM — sans jamais charger l'ensemble en mémoire. La donnée circule, se transforme, et sort en JSON conforme CycloneDX.

Chapitre précédent Chapitre suivant : CLI argparse

4.4 L'âme de Python face à PHP : Flux, Décorateurs et Générateurs

1. Deux langages, deux raisons d'être

2. Le secret du yield : le marque-page

3. L'écosystème lazy : emballer et différer

4. L'analogie du pipeline — décorateurs et générateurs ensemble

2. Le secret du `yield` : le marque-page