Summarization

The Summarization task generates concise summaries of the documents.

Usage

from sieves import tasks

task = tasks.Summarization(
    model=model,
    n_words=100, # Guideline for summary length
)

Results

The Summarization task returns a unified Result object containing the summary and a confidence score.

Confidence scores are self-reported by LLMs and may be None.

class Result(pydantic.BaseModel):
    """Result of a summarization task. Contains the generated summary and a confidence score.

    Attributes:
        summary: Summary of text.
        score: Confidence score.
    """

    summary: str = pydantic.Field(description="The generated summary of the input text.")
    score: float | None = pydantic.Field(
        default=None, description="Provide a confidence score for the generated summary, between 0 and 1."
    )

Evaluation

Because summarization is a generative task, evaluation requires a "judge" model to assess semantic similarity.

Metric: LLM Score (LLM Score). A model-based similarity score (0.0 to 1.0) provided by a DSPy judge.
Requirement: Each document must have a ground-truth summary stored in doc.gold[task_id].
Judge: You must provide a dspy.LM instance to the evaluate() method.

# Use an LLM as a judge to evaluate the summaries
report = task.evaluate(docs, judge=dspy_judge)
print(f"Summary Similarity: {report.metrics['LLM Score']}")

Ground Truth Formats

Ground truth has to be specified in doc.meta using Result instances.

Text summarization predictive task.

`Summarization`

Bases: PredictiveTask[TaskPromptSignature, TaskResult, _TaskBridge]

Summarize documents to a target length using structured model wrappers.

Source code in sieves/tasks/predictive/summarization/core.py

class Summarization(PredictiveTask[TaskPromptSignature, TaskResult, _TaskBridge]):
    """Summarize documents to a target length using structured model wrappers."""

    def __init__(
        self,
        n_words: int,
        model: TaskModel,
        task_id: str | None = None,
        include_meta: bool = True,
        batch_size: int = -1,
        overwrite: bool = False,
        prompt_instructions: str | None = None,
        fewshot_examples: Sequence[FewshotExample] = (),
        model_settings: ModelSettings = ModelSettings(),
        condition: Callable[[Doc], bool] | None = None,
    ) -> None:
        """Initialize new Summarization task.

        :param n_words: Maximal number of words (consider this a guideline, not a strict limit).
        :param model: Model to use.
        :param task_id: Task ID.
        :param include_meta: Whether to include meta information generated by the task.
        :param batch_size: Batch size to use for inference. Use -1 to process all documents at once.
        :param overwrite: Some tasks, e.g. anonymization or translation, output a modified version of the input text.
            If True, these tasks overwrite the original document text. If False, the result will just be stored in the
            documents' `.results` field.
        :param prompt_instructions: Custom prompt instructions. If None, default instructions are used.
        :param fewshot_examples: Few-shot examples.
        :param model_settings: Settings for structured generation. Use the `inference_mode` field to specify the
            inference mode for the model wrapper.
        :param condition: Optional callable that determines whether to process each document.
        """
        self._n_words = n_words

        super().__init__(
            model=model,
            task_id=task_id,
            include_meta=include_meta,
            batch_size=batch_size,
            overwrite=overwrite,
            prompt_instructions=prompt_instructions,
            fewshot_examples=fewshot_examples,
            model_settings=model_settings,
            condition=condition,
        )

    @property
    @override
    def fewshot_example_type(self) -> type[FewshotExample]:
        """Return few-shot example type.

        :return: Few-shot example type.
        """
        return FewshotExample

    @property
    @override
    def prompt_signature(self) -> type[pydantic.BaseModel]:
        # Dynamically create type with length restriction in description.
        class ResultWithLengthRestriction(TaskResult):
            pass

        ResultWithLengthRestriction.model_fields[
            "summary"
        ].description += f" This summary should be around {self._n_words} words."

        return ResultWithLengthRestriction

    @override
    def _compute_metrics(self, truths: list[Any], preds: list[Any], judge: dspy.LM | None = None) -> dict[str, float]:
        """Compute corpus-level metrics.

        :param truths: List of ground truths.
        :param preds: List of predictions.
        :param judge: Optional DSPy LM instance to use as judge for generative tasks.
        :return: Dictionary of metrics.
        """
        for gold in truths:
            if gold is not None:
                assert isinstance(gold, TaskResult)
        for pred in preds:
            if pred is not None:
                assert isinstance(pred, TaskResult)

        return super()._compute_metrics(truths, preds, judge=judge)

    @override
    def _init_bridge(self, model_type: ModelType) -> _TaskBridge:
        bridge_types: dict[ModelType, type[DSPySummarization | PydanticSummarization]] = {
            ModelType.dspy: DSPySummarization,
            ModelType.langchain: PydanticSummarization,
            ModelType.outlines: PydanticSummarization,
        }

        try:
            return bridge_types[model_type](
                task_id=self._task_id,
                prompt_instructions=self._custom_prompt_instructions,
                n_words=self._n_words,
                overwrite=self._overwrite,
                model_settings=self._model_settings,
                prompt_signature=self.prompt_signature,
                model_type=model_type,
                fewshot_examples=self._fewshot_examples,
            )
        except KeyError as err:
            raise KeyError(f"Model type {model_type} is not supported by {self.__class__.__name__}.") from err

    @staticmethod
    @override
    def supports() -> set[ModelType]:
        return {
            ModelType.dspy,
            ModelType.langchain,
            ModelType.outlines,
        }

    @property
    @override
    def _state(self) -> dict[str, Any]:
        return {
            **super()._state,
            "n_words": self._n_words,
        }

    @override
    def to_hf_dataset(self, docs: Iterable[Doc], threshold: float | None = None) -> datasets.Dataset:
        # Define metadata.
        features = datasets.Features(
            {"text": datasets.Value("string"), "summary": datasets.Value("string"), "score": datasets.Value("float32")}
        )
        info = datasets.DatasetInfo(
            description=f"Summarization dataset. Generated with sieves v{Config.get_version()}.",
            features=features,
        )

        # Fetch data used for generating dataset.
        try:
            data = [(doc.text, doc.results[self._task_id].summary, doc.results[self._task_id].score) for doc in docs]
        except KeyError as err:
            raise KeyError(f"Not all documents have results for this task with ID {self._task_id}") from err

        def generate_data() -> Iterable[dict[str, Any]]:
            """Yield results as dicts.

            :return: Results as dicts.
            """
            for text, summary, score in data:
                yield {"text": text, "summary": summary, "score": score}

        # Create dataset.
        return datasets.Dataset.from_generator(generate_data, features=features, info=info)

    @override
    def distill(
        self,
        base_model_id: str,
        framework: DistillationFramework,
        data: datasets.Dataset | Sequence[Doc],
        output_path: Path | str,
        val_frac: float,
        init_kwargs: dict[str, Any] | None = None,
        train_kwargs: dict[str, Any] | None = None,
        seed: int | None = None,
    ) -> None:
        raise NotImplementedError

`fewshot_example_type` `property`

Return few-shot example type.

Returns:

Type	Description
`type[FewshotExample]`	Few-shot example type.

`fewshot_examples` `property`

Return few-shot examples.

Returns:

Type	Description
`Sequence[FewshotExample]`	Few-shot examples.

`id` `property`

Return task ID.

Used by pipeline for results and dependency management.

Returns:

Type	Description
`str`	Task ID.

`metric` `property`

Return metric name.

Returns:

Type	Description
`str`	Metric name.

`prompt_signature_description` `property`

Return prompt signature description.

Returns:

Type	Description
`str \| None`	Prompt signature description.

`prompt_template` `property`

Return prompt template.

Returns:

Type	Description
`str`	Prompt template.

`add(other)`

Chain this task with another task or pipeline using the + operator.

This returns a new Pipeline that executes this task first, followed by the task(s) in other. The original task(s)/pipeline are not mutated.

Cache semantics: - If other is a Pipeline, the resulting pipeline adopts other's use_cache setting (because the left-hand side is a single task). - If other is a Task, the resulting pipeline defaults to use_cache=True.

Parameters:

Name	Type	Description	Default
`other`	`Task \| Pipeline`	A `Task` or `Pipeline` to execute after this task.	required

Returns:

Type	Description
`Pipeline`	A new `Pipeline` representing the chained execution.

Raises:

Type	Description
`TypeError`	If `other` is not a `Task` or `Pipeline`.

Source code in sieves/tasks/core.py

def __add__(self, other: Task | Pipeline) -> Pipeline:
    """Chain this task with another task or pipeline using the ``+`` operator.

    This returns a new ``Pipeline`` that executes this task first, followed by the
    task(s) in ``other``. The original task(s)/pipeline are not mutated.

    Cache semantics:
    - If ``other`` is a ``Pipeline``, the resulting pipeline adopts ``other``'s
      ``use_cache`` setting (because the left-hand side is a single task).
    - If ``other`` is a ``Task``, the resulting pipeline defaults to ``use_cache=True``.

    :param other: A ``Task`` or ``Pipeline`` to execute after this task.
    :return: A new ``Pipeline`` representing the chained execution.
    :raises TypeError: If ``other`` is not a ``Task`` or ``Pipeline``.
    """
    # Lazy import to avoid circular dependency at module import time.
    from sieves.pipeline import Pipeline

    if isinstance(other, Pipeline):
        return Pipeline(tasks=[self, *other.tasks], use_cache=other.use_cache)

    if isinstance(other, Task):
        return Pipeline(tasks=[self, other])

    raise TypeError(f"Cannot chain Task with {type(other).__name__}")

`call(docs)`

Execute task with conditional logic.

Checks the condition for each document without materializing all docs upfront. Passes all documents that pass the condition to _call() for proper batching. Documents that fail the condition have results[task_id] set to None.

Parameters:

Name	Type	Description	Default
`docs`	`Iterable[Doc]`	Docs to process.	required

Returns:

Type	Description
`Iterable[Doc]`	Processed docs (in original order).

Source code in sieves/tasks/core.py

def __call__(self, docs: Iterable[Doc]) -> Iterable[Doc]:
    """Execute task with conditional logic.

    Checks the condition for each document without materializing all docs upfront.
    Passes all documents that pass the condition to _call() for proper batching.
    Documents that fail the condition have results[task_id] set to None.

    :param docs: Docs to process.
    :return: Processed docs (in original order).
    """
    docs = iter(docs) if not isinstance(docs, Iterator) else docs

    # Materialize docs in batches. This doesn't incur additional memory overhead, as docs are materialized in
    # batches downstream anyway.
    batch_size = self._batch_size if self._batch_size > 0 else sys.maxsize
    while docs_batch := [doc for doc in itertools.islice(docs, batch_size)]:
        # First pass: determine which docs pass the condition by index.
        passing_indices: set[int] = {
            idx for idx, doc in enumerate(docs_batch) if self._condition is None or self._condition(doc)
        }

        # Process all passing docs in one batch.
        processed = self._call(d for i, d in enumerate(docs_batch) if i in passing_indices)
        processed_iter = iter(processed) if not isinstance(processed, Iterator) else processed

        # Iterate through original docs in order and yield results.
        for idx, doc in enumerate(docs_batch):
            if idx in passing_indices:
                # Doc passed condition - use processed result.
                yield next(processed_iter)
            else:
                # Doc failed condition - set `None` result and yield original.
                doc.results[self.id] = None
                yield doc

`init(n_words, model, task_id=None, include_meta=True, batch_size=-1, overwrite=False, prompt_instructions=None, fewshot_examples=(), model_settings=ModelSettings(), condition=None)`

Initialize new Summarization task.

Parameters:

Name	Type	Description	Default
`n_words`	`int`	Maximal number of words (consider this a guideline, not a strict limit).	required
`model`	`TaskModel`	Model to use.	required
`task_id`	`str \| None`	Task ID.	`None`
`include_meta`	`bool`	Whether to include meta information generated by the task.	`True`
`batch_size`	`int`	Batch size to use for inference. Use -1 to process all documents at once.	`-1`
`overwrite`	`bool`	Some tasks, e.g. anonymization or translation, output a modified version of the input text. If True, these tasks overwrite the original document text. If False, the result will just be stored in the documents' `.results` field.	`False`
`prompt_instructions`	`str \| None`	Custom prompt instructions. If None, default instructions are used.	`None`
`fewshot_examples`	`Sequence[FewshotExample]`	Few-shot examples.	`()`
`model_settings`	`ModelSettings`	Settings for structured generation. Use the `inference_mode` field to specify the inference mode for the model wrapper.	`ModelSettings()`
`condition`	`Callable[[Doc], bool] \| None`	Optional callable that determines whether to process each document.	`None`

Source code in sieves/tasks/predictive/summarization/core.py

def __init__(
    self,
    n_words: int,
    model: TaskModel,
    task_id: str | None = None,
    include_meta: bool = True,
    batch_size: int = -1,
    overwrite: bool = False,
    prompt_instructions: str | None = None,
    fewshot_examples: Sequence[FewshotExample] = (),
    model_settings: ModelSettings = ModelSettings(),
    condition: Callable[[Doc], bool] | None = None,
) -> None:
    """Initialize new Summarization task.

    :param n_words: Maximal number of words (consider this a guideline, not a strict limit).
    :param model: Model to use.
    :param task_id: Task ID.
    :param include_meta: Whether to include meta information generated by the task.
    :param batch_size: Batch size to use for inference. Use -1 to process all documents at once.
    :param overwrite: Some tasks, e.g. anonymization or translation, output a modified version of the input text.
        If True, these tasks overwrite the original document text. If False, the result will just be stored in the
        documents' `.results` field.
    :param prompt_instructions: Custom prompt instructions. If None, default instructions are used.
    :param fewshot_examples: Few-shot examples.
    :param model_settings: Settings for structured generation. Use the `inference_mode` field to specify the
        inference mode for the model wrapper.
    :param condition: Optional callable that determines whether to process each document.
    """
    self._n_words = n_words

    super().__init__(
        model=model,
        task_id=task_id,
        include_meta=include_meta,
        batch_size=batch_size,
        overwrite=overwrite,
        prompt_instructions=prompt_instructions,
        fewshot_examples=fewshot_examples,
        model_settings=model_settings,
        condition=condition,
    )

`deserialize(config, **kwargs)` `classmethod`

Generate PredictiveTask instance from config.

Parameters:

Name	Type	Description	Default
`config`	`Config`	Config to generate instance from.	required
`kwargs`	`dict[str, Any]`	Values to inject into loaded config.	`{}`

Returns:

Type	Description
`PredictiveTask[TaskPromptSignature, TaskResult, TaskBridge]`	Deserialized PredictiveTask instance.

Source code in sieves/tasks/predictive/core.py

@classmethod
def deserialize(
    cls, config: Config, **kwargs: dict[str, Any]
) -> PredictiveTask[TaskPromptSignature, TaskResult, TaskBridge]:
    """Generate PredictiveTask instance from config.

    :param config: Config to generate instance from.
    :param kwargs: Values to inject into loaded config.
    :return PredictiveTask[TaskPromptSignature, TaskResult, _TaskBridge]: Deserialized PredictiveTask instance.
    """
    init_dict = config.to_init_dict(cls, **kwargs)
    init_dict["model_settings"] = ModelSettings.model_validate(init_dict["model_settings"])

    return cls(**init_dict)

`evaluate(docs, judge=None, failure_threshold=0.5)`

Evaluate task performance using DSPy-based evaluation.

Parameters:

Name	Type	Description	Default
`docs`	`Iterable[Doc]`	Documents to evaluate.	required
`judge`	`LM \| None`	Optional DSPy LM instance to use as judge for generative tasks.	`None`
`failure_threshold`	`float`	Decision threshold for whether to mark predicitions as failures.	`0.5`

Returns:

Type	Description
`TaskEvaluationReport`	Evaluation report.

Source code in sieves/tasks/predictive/core.py

def evaluate(
    self, docs: Iterable[Doc], judge: dspy.LM | None = None, failure_threshold: float = 0.5
) -> TaskEvaluationReport:
    """Evaluate task performance using DSPy-based evaluation.

    :param docs: Documents to evaluate.
    :param judge: Optional DSPy LM instance to use as judge for generative tasks.
    :param failure_threshold: Decision threshold for whether to mark predicitions as failures.
    :return: Evaluation report.
    """
    truths: list[Any] = []
    preds: list[Any] = []
    failures: list[Doc] = []

    # Evaluate each doc individually to identify failed predictions.
    for doc in docs:
        if self.id not in doc.results:
            continue

        pred = doc.results[self.id]
        gold = doc.gold.get(self.id, None)

        # Accumulate for corpus-level metrics.
        truths.append(gold)
        preds.append(pred)

        # If gold or prediction is None: we cannot do proper evalution, so we just check whether they're both None
        # to compute score for failure analysis.
        if gold is None or pred is None:
            if gold is not None or pred is not None:
                failures.append(doc)
        else:
            # Convert result and gold to DSPy representation.
            truth = dspy.Example(**self._task_result_to_dspy_dict(gold))
            pred_dspy = dspy.Prediction(**self._task_result_to_dspy_dict(pred))

            # Call internal evaluation logic for per-doc failure analysis.
            score = self._evaluate_dspy_example(truth, pred_dspy, trace=None, model=judge)

            if score < failure_threshold:
                failures.append(doc)

    # Evaluate on corpus level to obtain representative metrics.
    metrics = self._compute_metrics(truths, preds, judge=judge)

    return TaskEvaluationReport(
        metrics=metrics,
        task_id=self.id,
        failures=failures,
    )

`optimize(optimizer, verbose=True)`

Optimize task prompt and few-shot examples with the available optimization config.

Updates task to use best prompt and few-shot examples found by the optimizer.

Parameters:

Name	Type	Description	Default
`optimizer`	`Optimizer`	Optimizer to run.	required
`verbose`	`bool`	Whether to suppress output. DSPy produces a good amount of logs, so this can be useful to not pollute your terminal. Only warnings and errors will be printed.	`True`

Returns:

Type	Description
`tuple[str, Sequence[FewshotExample]]`	Best found prompt and few-shot examples.

Source code in sieves/tasks/predictive/core.py

def optimize(self, optimizer: optimization.Optimizer, verbose: bool = True) -> tuple[str, Sequence[FewshotExample]]:
    """Optimize task prompt and few-shot examples with the available optimization config.

    Updates task to use best prompt and few-shot examples found by the optimizer.

    :param optimizer: Optimizer to run.
    :param verbose: Whether to suppress output. DSPy produces a good amount of logs, so this can be useful to
        not pollute your terminal. Only warnings and errors will be printed.

    :return tuple[str, Sequence[FewshotExample]]: Best found prompt and few-shot examples.
    """
    assert len(self._fewshot_examples) > 1, "At least two few-shot examples need to be provided to optimize."

    # Run optimizer to get best prompt and few-shot examples.
    signature = self._get_task_signature()
    dspy_examples = [ex.to_dspy() for ex in self._fewshot_examples]

    def _pred_eval(truth: dspy.Example, pred: dspy.Prediction, trace: Any | None = None) -> float:
        """Wrap optimization evaluation, inject model.

        :param truth: Ground truth.
        :param pred: Predicted value.
        :param trace: Optional trace information.
        :return: Metric value between 0.0 and 1.0.
        :raises KeyError: If target fields are missing from truth or prediction.
        :raises ValueError: If similarity score cannot be parsed from LLM response.
        """
        return self._evaluate_dspy_example(truth, pred, trace, model=optimizer.model)

    if verbose:
        best_prompt, best_examples = optimizer(signature, dspy_examples, _pred_eval, verbose=verbose)
    else:
        # Temporarily suppress DSPy logs.
        dspy_logger = logging.getLogger("dspy")
        optuna_logger = logging.getLogger("optuna")
        original_dspy_level = dspy_logger.level
        original_optuna_level = optuna_logger.level

        try:
            dspy_logger.setLevel(logging.ERROR)
            optuna_logger.setLevel(logging.ERROR)
            with warnings.catch_warnings():
                warnings.simplefilter("ignore")
                best_prompt, best_examples = optimizer(signature, dspy_examples, _pred_eval, verbose=verbose)
        finally:
            dspy_logger.setLevel(original_dspy_level)
            optuna_logger.setLevel(original_optuna_level)

    # Update few-shot examples and prompt instructions.
    fewshot_example_cls = self._fewshot_examples[0].__class__
    self._fewshot_examples = [fewshot_example_cls.from_dspy(ex) for ex in best_examples]
    self._validate_fewshot_examples()
    self._custom_prompt_instructions = best_prompt

    # Reinitialize bridge to use new prompt and few-shot examples.
    self._bridge = self._init_bridge(ModelType.get_model_type(self._model_wrapper))

    return best_prompt, self._fewshot_examples

`serialize()`

Serialize task.

Returns:

Type	Description
`Config`	Config instance.

Source code in sieves/tasks/core.py

def serialize(self) -> Config:
    """Serialize task.

    :return: Config instance.
    """
    return Config.create(self.__class__, {k: Attribute(value=v) for k, v in self._state.items()})

Bridges for summarization task.

`DSPySummarization`

Bases: SummarizationBridge[PromptSignature, Result, InferenceMode]

DSPy bridge for summarization.

Source code in sieves/tasks/predictive/summarization/bridges.py

class DSPySummarization(SummarizationBridge[dspy_.PromptSignature, dspy_.Result, dspy_.InferenceMode]):
    """DSPy bridge for summarization."""

    @override
    def _validate(self) -> None:
        assert self._model_type == ModelType.dspy

    @override
    @property
    def _default_prompt_instructions(self) -> str:
        return ""

    @override
    @property
    def inference_mode(self) -> dspy_.InferenceMode:
        return self._model_settings.inference_mode or dspy_.InferenceMode.predict

    @property
    @override
    def _chunk_extractor(self) -> Callable[[Any], tuple[str, float | None]]:
        return lambda res: (res.summary, getattr(res, "score", None))

    @override
    def integrate(self, results: Sequence[dspy_.Result], docs: list[Doc]) -> list[Doc]:
        for doc, result in zip(docs, results):
            assert len(result.completions.summary) == 1
            res = Result(summary=result.summary, score=getattr(result, "score", None))
            doc.results[self._task_id] = res

            if self._overwrite:
                doc.text = res.summary

        return docs

    @override
    def consolidate(
        self, results: Sequence[dspy_.Result], docs_offsets: list[tuple[int, int]]
    ) -> Sequence[dspy_.Result]:
        consolidated_results_clean = self._consolidation_strategy.consolidate(results, docs_offsets)

        # Wrap back into dspy.Prediction.
        consolidated_results: list[dspy_.Result] = []
        for summary, score in consolidated_results_clean:
            consolidated_results.append(
                dspy.Prediction.from_completions(
                    {
                        "summary": [summary],
                        "score": [score],
                    },
                    signature=self.prompt_signature,
                )
            )

        return consolidated_results

`model_settings` `property`

Return model settings.

Returns:

Type	Description
`ModelSettings`	Model settings.

`model_type` `property`

Return model type.

Returns:

Type	Description
`ModelType`	Model type.

`prompt_signature` `property`

Create output signature.

E.g.: Signature in DSPy, Pydantic objects in outlines, JSON schema in jsonformers. This is model type-specific.

Returns:

Type	Description
`type[TaskPromptSignature] \| TaskPromptSignature`	Output signature object. This can be an instance (e.g. a regex string) or a class (e.g. a Pydantic class).

`prompt_template` `property`

Return prompt template.

Chains _prompt_instructions, _prompt_example_xml and _prompt_conclusion.

Note: different model have different expectations as to how a prompt should look like. E.g. outlines supports the Jinja 2 templating format for insertion of values and few-shot examples, whereas DSPy integrates these things in a different value in the workflow and hence expects the prompt not to include these things. Mind model-specific expectations when creating a prompt template.

Returns:

Type	Description
`str`	Prompt template as string. None if not used by model wrapper.

`init(task_id, prompt_instructions, n_words, overwrite, model_settings, prompt_signature, model_type, fewshot_examples=())`

Initialize summarization bridge.

Parameters:

Name	Type	Description	Default
`task_id`	`str`	Task ID.	required
`prompt_instructions`	`str \| None`	Custom prompt instructions. If None, default instructions are used.	required
`n_words`	`int`	Maximum number of words for summary.	required
`overwrite`	`bool`	Whether to overwrite original text with summary.	required
`model_settings`	`ModelSettings`	Settings for structured generation.	required
`prompt_signature`	`type[BaseModel]`	Unified Pydantic prompt signature.	required
`model_type`	`ModelType`	Model type.	required
`fewshot_examples`	`Sequence[BaseModel]`	Few-shot examples.	`()`

Source code in sieves/tasks/predictive/summarization/bridges.py

def __init__(
    self,
    task_id: str,
    prompt_instructions: str | None,
    n_words: int,
    overwrite: bool,
    model_settings: ModelSettings,
    prompt_signature: type[pydantic.BaseModel],
    model_type: ModelType,
    fewshot_examples: Sequence[pydantic.BaseModel] = (),
):
    """Initialize summarization bridge.

    :param task_id: Task ID.
    :param prompt_instructions: Custom prompt instructions. If None, default instructions are used.
    :param n_words: Maximum number of words for summary.
    :param overwrite: Whether to overwrite original text with summary.
    :param model_settings: Settings for structured generation.
    :param prompt_signature: Unified Pydantic prompt signature.
    :param model_type: Model type.
    :param fewshot_examples: Few-shot examples.
    """
    super().__init__(
        task_id=task_id,
        prompt_instructions=prompt_instructions,
        overwrite=overwrite,
        model_settings=model_settings,
        prompt_signature=prompt_signature,
        model_type=model_type,
        fewshot_examples=fewshot_examples,
    )
    self._n_words = n_words
    self._consolidation_strategy = TextConsolidation(extractor=self._chunk_extractor)

`extract(docs)`

Extract all values from doc instances that are to be injected into the prompts.

Parameters:

Name	Type	Description	Default
`docs`	`Sequence[Doc]`	Docs to extract values from.	required

Returns:

Type	Description
`Sequence[dict[str, Any]]`	All values from doc instances that are to be injected into the prompts as a sequence.

Source code in sieves/tasks/predictive/bridges.py

def extract(self, docs: Sequence[Doc]) -> Sequence[dict[str, Any]]:
    """Extract all values from doc instances that are to be injected into the prompts.

    :param docs: Docs to extract values from.
    :return: All values from doc instances that are to be injected into the prompts as a sequence.
    """
    return [{"text": doc.text if doc.text else None} for doc in docs]

`PydanticSummarization`

Bases: SummarizationBridge[BaseModel, BaseModel, ModelWrapperInferenceMode]

Pydantic-based summarization bridge.

Source code in sieves/tasks/predictive/summarization/bridges.py

class PydanticSummarization(SummarizationBridge[pydantic.BaseModel, pydantic.BaseModel, ModelWrapperInferenceMode]):
    """Pydantic-based summarization bridge."""

    @override
    def _validate(self) -> None:
        assert self._model_type in {ModelType.langchain, ModelType.outlines}

    @override
    @property
    def _default_prompt_instructions(self) -> str:
        return (
            "Your goal is to summarize a text. Provide a confidence score between 0.0 and 1.0 for the summary. "
            f"The number of words should be around {self._n_words}."
        )

    @override
    @property
    def _prompt_conclusion(self) -> str:
        return "========\n<text>{{ text }}</text>\n<summary>"

    @property
    @override
    def _chunk_extractor(self) -> Callable[[Any], tuple[str, float | None]]:
        return lambda res: (res.summary, getattr(res, "score", None))

    @override
    def integrate(self, results: Sequence[pydantic.BaseModel], docs: list[Doc]) -> list[Doc]:
        for doc, result in zip(docs, results):
            assert hasattr(result, "summary")
            res = Result(summary=result.summary, score=getattr(result, "score", None))
            doc.results[self._task_id] = res

            if self._overwrite:
                doc.text = res.summary
        return docs

    @override
    def consolidate(
        self, results: Sequence[pydantic.BaseModel], docs_offsets: list[tuple[int, int]]
    ) -> Sequence[pydantic.BaseModel]:
        assert issubclass(self.prompt_signature, pydantic.BaseModel)

        consolidated_results_clean = self._consolidation_strategy.consolidate(results, docs_offsets)
        consolidated_results: list[pydantic.BaseModel] = []

        for summary, score in consolidated_results_clean:
            consolidated_results.append(
                self.prompt_signature(
                    summary=summary,
                    score=score,
                )
            )

        return consolidated_results

    @override
    @property
    def inference_mode(self) -> outlines_.InferenceMode | langchain_.InferenceMode:
        if self._model_type == ModelType.outlines:
            return self._model_settings.inference_mode or outlines_.InferenceMode.json
        elif self._model_type == ModelType.langchain:
            return self._model_settings.inference_mode or langchain_.InferenceMode.structured

        raise ValueError(f"Unsupported model type: {self._model_type}")

`model_settings` `property`

Return model settings.

Returns:

Type	Description
`ModelSettings`	Model settings.

`model_type` `property`

Return model type.

Returns:

Type	Description
`ModelType`	Model type.

`prompt_signature` `property`

Create output signature.

E.g.: Signature in DSPy, Pydantic objects in outlines, JSON schema in jsonformers. This is model type-specific.

Returns:

Type	Description
`type[TaskPromptSignature] \| TaskPromptSignature`	Output signature object. This can be an instance (e.g. a regex string) or a class (e.g. a Pydantic class).

`prompt_template` `property`

Return prompt template.

Chains _prompt_instructions, _prompt_example_xml and _prompt_conclusion.

Note: different model have different expectations as to how a prompt should look like. E.g. outlines supports the Jinja 2 templating format for insertion of values and few-shot examples, whereas DSPy integrates these things in a different value in the workflow and hence expects the prompt not to include these things. Mind model-specific expectations when creating a prompt template.

Returns:

Type	Description
`str`	Prompt template as string. None if not used by model wrapper.

`init(task_id, prompt_instructions, n_words, overwrite, model_settings, prompt_signature, model_type, fewshot_examples=())`

Initialize summarization bridge.

Parameters:

Name	Type	Description	Default
`task_id`	`str`	Task ID.	required
`prompt_instructions`	`str \| None`	Custom prompt instructions. If None, default instructions are used.	required
`n_words`	`int`	Maximum number of words for summary.	required
`overwrite`	`bool`	Whether to overwrite original text with summary.	required
`model_settings`	`ModelSettings`	Settings for structured generation.	required
`prompt_signature`	`type[BaseModel]`	Unified Pydantic prompt signature.	required
`model_type`	`ModelType`	Model type.	required
`fewshot_examples`	`Sequence[BaseModel]`	Few-shot examples.	`()`

Source code in sieves/tasks/predictive/summarization/bridges.py

def __init__(
    self,
    task_id: str,
    prompt_instructions: str | None,
    n_words: int,
    overwrite: bool,
    model_settings: ModelSettings,
    prompt_signature: type[pydantic.BaseModel],
    model_type: ModelType,
    fewshot_examples: Sequence[pydantic.BaseModel] = (),
):
    """Initialize summarization bridge.

    :param task_id: Task ID.
    :param prompt_instructions: Custom prompt instructions. If None, default instructions are used.
    :param n_words: Maximum number of words for summary.
    :param overwrite: Whether to overwrite original text with summary.
    :param model_settings: Settings for structured generation.
    :param prompt_signature: Unified Pydantic prompt signature.
    :param model_type: Model type.
    :param fewshot_examples: Few-shot examples.
    """
    super().__init__(
        task_id=task_id,
        prompt_instructions=prompt_instructions,
        overwrite=overwrite,
        model_settings=model_settings,
        prompt_signature=prompt_signature,
        model_type=model_type,
        fewshot_examples=fewshot_examples,
    )
    self._n_words = n_words
    self._consolidation_strategy = TextConsolidation(extractor=self._chunk_extractor)

`extract(docs)`

Extract all values from doc instances that are to be injected into the prompts.

Parameters:

Name	Type	Description	Default
`docs`	`Sequence[Doc]`	Docs to extract values from.	required

Returns:

Type	Description
`Sequence[dict[str, Any]]`	All values from doc instances that are to be injected into the prompts as a sequence.

Source code in sieves/tasks/predictive/bridges.py

def extract(self, docs: Sequence[Doc]) -> Sequence[dict[str, Any]]:
    """Extract all values from doc instances that are to be injected into the prompts.

    :param docs: Docs to extract values from.
    :return: All values from doc instances that are to be injected into the prompts as a sequence.
    """
    return [{"text": doc.text if doc.text else None} for doc in docs]

`SummarizationBridge`

Bases: Bridge[_BridgePromptSignature, _BridgeResult, ModelWrapperInferenceMode], ABC

Abstract base class for summarization bridges.

Source code in sieves/tasks/predictive/summarization/bridges.py

class SummarizationBridge(Bridge[_BridgePromptSignature, _BridgeResult, ModelWrapperInferenceMode], abc.ABC):
    """Abstract base class for summarization bridges."""

    def __init__(
        self,
        task_id: str,
        prompt_instructions: str | None,
        n_words: int,
        overwrite: bool,
        model_settings: ModelSettings,
        prompt_signature: type[pydantic.BaseModel],
        model_type: ModelType,
        fewshot_examples: Sequence[pydantic.BaseModel] = (),
    ):
        """Initialize summarization bridge.

        :param task_id: Task ID.
        :param prompt_instructions: Custom prompt instructions. If None, default instructions are used.
        :param n_words: Maximum number of words for summary.
        :param overwrite: Whether to overwrite original text with summary.
        :param model_settings: Settings for structured generation.
        :param prompt_signature: Unified Pydantic prompt signature.
        :param model_type: Model type.
        :param fewshot_examples: Few-shot examples.
        """
        super().__init__(
            task_id=task_id,
            prompt_instructions=prompt_instructions,
            overwrite=overwrite,
            model_settings=model_settings,
            prompt_signature=prompt_signature,
            model_type=model_type,
            fewshot_examples=fewshot_examples,
        )
        self._n_words = n_words
        self._consolidation_strategy = TextConsolidation(extractor=self._chunk_extractor)

    @property
    @abc.abstractmethod
    def _chunk_extractor(self) -> Callable[[Any], tuple[str, float | None]]:
        """Return a callable that extracts (text, score) from a raw chunk result.

        :return: Extractor callable.
        """

`inference_mode` `abstractmethod` `property`

Return inference mode.

Returns:

Type	Description
`ModelWrapperInferenceMode`	Inference mode.

`model_settings` `property`

Return model settings.

Returns:

Type	Description
`ModelSettings`	Model settings.

`model_type` `property`

Return model type.

Returns:

Type	Description
`ModelType`	Model type.

`prompt_signature` `property`

Create output signature.

E.g.: Signature in DSPy, Pydantic objects in outlines, JSON schema in jsonformers. This is model type-specific.

Returns:

Type	Description
`type[TaskPromptSignature] \| TaskPromptSignature`	Output signature object. This can be an instance (e.g. a regex string) or a class (e.g. a Pydantic class).

`prompt_template` `property`

Return prompt template.

Chains _prompt_instructions, _prompt_example_xml and _prompt_conclusion.

Note: different model have different expectations as to how a prompt should look like. E.g. outlines supports the Jinja 2 templating format for insertion of values and few-shot examples, whereas DSPy integrates these things in a different value in the workflow and hence expects the prompt not to include these things. Mind model-specific expectations when creating a prompt template.

Returns:

Type	Description
`str`	Prompt template as string. None if not used by model wrapper.

`init(task_id, prompt_instructions, n_words, overwrite, model_settings, prompt_signature, model_type, fewshot_examples=())`

Initialize summarization bridge.

Parameters:

Name	Type	Description	Default
`task_id`	`str`	Task ID.	required
`prompt_instructions`	`str \| None`	Custom prompt instructions. If None, default instructions are used.	required
`n_words`	`int`	Maximum number of words for summary.	required
`overwrite`	`bool`	Whether to overwrite original text with summary.	required
`model_settings`	`ModelSettings`	Settings for structured generation.	required
`prompt_signature`	`type[BaseModel]`	Unified Pydantic prompt signature.	required
`model_type`	`ModelType`	Model type.	required
`fewshot_examples`	`Sequence[BaseModel]`	Few-shot examples.	`()`

Source code in sieves/tasks/predictive/summarization/bridges.py

def __init__(
    self,
    task_id: str,
    prompt_instructions: str | None,
    n_words: int,
    overwrite: bool,
    model_settings: ModelSettings,
    prompt_signature: type[pydantic.BaseModel],
    model_type: ModelType,
    fewshot_examples: Sequence[pydantic.BaseModel] = (),
):
    """Initialize summarization bridge.

    :param task_id: Task ID.
    :param prompt_instructions: Custom prompt instructions. If None, default instructions are used.
    :param n_words: Maximum number of words for summary.
    :param overwrite: Whether to overwrite original text with summary.
    :param model_settings: Settings for structured generation.
    :param prompt_signature: Unified Pydantic prompt signature.
    :param model_type: Model type.
    :param fewshot_examples: Few-shot examples.
    """
    super().__init__(
        task_id=task_id,
        prompt_instructions=prompt_instructions,
        overwrite=overwrite,
        model_settings=model_settings,
        prompt_signature=prompt_signature,
        model_type=model_type,
        fewshot_examples=fewshot_examples,
    )
    self._n_words = n_words
    self._consolidation_strategy = TextConsolidation(extractor=self._chunk_extractor)

`consolidate(results, docs_offsets)` `abstractmethod`

Consolidate results for document chunks into document results.

Parameters:

Name	Type	Description	Default
`results`	`Sequence[TaskResult]`	Results per document chunk.	required
`docs_offsets`	`list[tuple[int, int]]`	Chunk offsets per document. Chunks per document can be obtained with `results[docs_chunk_offsets[i][0]:docs_chunk_offsets[i][1]]`.	required

Returns:

Type	Description
`Sequence[TaskResult]`	Results per document as a sequence.

Source code in sieves/tasks/predictive/bridges.py

@abc.abstractmethod
def consolidate(self, results: Sequence[TaskResult], docs_offsets: list[tuple[int, int]]) -> Sequence[TaskResult]:
    """Consolidate results for document chunks into document results.

    :param results: Results per document chunk.
    :param docs_offsets: Chunk offsets per document. Chunks per document can be obtained with
        `results[docs_chunk_offsets[i][0]:docs_chunk_offsets[i][1]]`.
    :return: Results per document as a sequence.
    """

`extract(docs)`

Extract all values from doc instances that are to be injected into the prompts.

Parameters:

Name	Type	Description	Default
`docs`	`Sequence[Doc]`	Docs to extract values from.	required

Returns:

Type	Description
`Sequence[dict[str, Any]]`	All values from doc instances that are to be injected into the prompts as a sequence.

Source code in sieves/tasks/predictive/bridges.py

def extract(self, docs: Sequence[Doc]) -> Sequence[dict[str, Any]]:
    """Extract all values from doc instances that are to be injected into the prompts.

    :param docs: Docs to extract values from.
    :return: All values from doc instances that are to be injected into the prompts as a sequence.
    """
    return [{"text": doc.text if doc.text else None} for doc in docs]

`integrate(results, docs)` `abstractmethod`

Integrate results into Doc instances.

Parameters:

Name	Type	Description	Default
`results`	`Sequence[TaskResult]`	Results from prompt executable.	required
`docs`	`list[Doc]`	Doc instances to update.	required

Returns:

Type	Description
`list[Doc]`	Updated doc instances as a list.

Source code in sieves/tasks/predictive/bridges.py

@abc.abstractmethod
def integrate(self, results: Sequence[TaskResult], docs: list[Doc]) -> list[Doc]:
    """Integrate results into Doc instances.

    :param results: Results from prompt executable.
    :param docs: Doc instances to update.
    :return: Updated doc instances as a list.
    """

Schemas for summarization task.

`FewshotExample`

Bases: FewshotExample

Example for summarization few-shot prompting.

Attributes: text: Input text. n_words: Guideline for summary length. summary: Summary of text. score: Confidence score.

Source code in sieves/tasks/predictive/schemas/summarization.py

class FewshotExample(BaseFewshotExample):
    """Example for summarization few-shot prompting.

    Attributes:
        text: Input text.
        n_words: Guideline for summary length.
        summary: Summary of text.
        score: Confidence score.
    """

    n_words: int
    summary: str
    score: float | None = None

    @property
    def input_fields(self) -> Sequence[str]:
        """Return input fields.

        :return: Input fields.
        """
        return "text", "n_words"

    @property
    def target_fields(self) -> tuple[str, ...]:
        """Return target fields.

        :return: Target fields.
        """
        return ("summary",)

`input_fields` `property`

Return input fields.

Returns:

Type	Description
`Sequence[str]`	Input fields.

`target_fields` `property`

Return target fields.

Returns:

Type	Description
`tuple[str, ...]`	Target fields.

`from_dspy(example)` `classmethod`

Convert from dspy.Example.

Parameters:

Name	Type	Description	Default
`example`	`Example`	Example as `dspy.Example`.	required

Returns:

Type	Description
`Self`	Example as `FewshotExample`.

Source code in sieves/tasks/predictive/schemas/core.py

@classmethod
def from_dspy(cls, example: dspy.Example) -> Self:
    """Convert from `dspy.Example`.

    :param example: Example as `dspy.Example`.
    :returns: Example as `FewshotExample`.
    """
    return cls(**example)

`to_dspy()`

Convert to dspy.Example.

Returns:

Type	Description
`Example`	Example as `dspy.Example`.

Source code in sieves/tasks/predictive/schemas/core.py

def to_dspy(self) -> dspy.Example:
    """Convert to `dspy.Example`.

    :returns: Example as `dspy.Example`.
    """
    return dspy.Example(**ModelWrapper.convert_fewshot_examples([self])[0]).with_inputs(*self.input_fields)

`Result`

Bases: BaseModel

Result of a summarization task. Contains the generated summary and a confidence score.

Attributes: summary: Summary of text. score: Confidence score.

Source code in sieves/tasks/predictive/schemas/summarization.py

class Result(pydantic.BaseModel):
    """Result of a summarization task. Contains the generated summary and a confidence score.

    Attributes:
        summary: Summary of text.
        score: Confidence score.
    """

    summary: str = pydantic.Field(description="The generated summary of the input text.")
    score: float | None = pydantic.Field(
        default=None, description="Provide a confidence score for the generated summary, between 0 and 1."
    )

Summarization

Usage

Results

Evaluation

Ground Truth Formats

Summarization

fewshot_example_type property

fewshot_examples property

id property

metric property

prompt_signature_description property

prompt_template property

__add__(other)

__call__(docs)

__init__(n_words, model, task_id=None, include_meta=True, batch_size=-1, overwrite=False, prompt_instructions=None, fewshot_examples=(), model_settings=ModelSettings(), condition=None)

deserialize(config, **kwargs) classmethod

evaluate(docs, judge=None, failure_threshold=0.5)

optimize(optimizer, verbose=True)

serialize()

DSPySummarization

model_settings property

model_type property

prompt_signature property

prompt_template property

__init__(task_id, prompt_instructions, n_words, overwrite, model_settings, prompt_signature, model_type, fewshot_examples=())

extract(docs)

PydanticSummarization

model_settings property

model_type property

prompt_signature property

prompt_template property

__init__(task_id, prompt_instructions, n_words, overwrite, model_settings, prompt_signature, model_type, fewshot_examples=())

extract(docs)

SummarizationBridge

inference_mode abstractmethod property

model_settings property

model_type property

prompt_signature property

prompt_template property

__init__(task_id, prompt_instructions, n_words, overwrite, model_settings, prompt_signature, model_type, fewshot_examples=())

consolidate(results, docs_offsets) abstractmethod

extract(docs)

integrate(results, docs) abstractmethod

FewshotExample

input_fields property

target_fields property

from_dspy(example) classmethod

to_dspy()

Result

`Summarization`

`fewshot_example_type` `property`

`fewshot_examples` `property`

`id` `property`

`metric` `property`

`prompt_signature_description` `property`

`prompt_template` `property`

`add(other)`

`call(docs)`

`init(n_words, model, task_id=None, include_meta=True, batch_size=-1, overwrite=False, prompt_instructions=None, fewshot_examples=(), model_settings=ModelSettings(), condition=None)`

`deserialize(config, **kwargs)` `classmethod`

`evaluate(docs, judge=None, failure_threshold=0.5)`

`optimize(optimizer, verbose=True)`

`serialize()`

`DSPySummarization`

`model_settings` `property`

`model_type` `property`

`prompt_signature` `property`

`prompt_template` `property`

`init(task_id, prompt_instructions, n_words, overwrite, model_settings, prompt_signature, model_type, fewshot_examples=())`

`extract(docs)`

`PydanticSummarization`

`model_settings` `property`

`model_type` `property`

`prompt_signature` `property`

`prompt_template` `property`

`init(task_id, prompt_instructions, n_words, overwrite, model_settings, prompt_signature, model_type, fewshot_examples=())`

`extract(docs)`

`SummarizationBridge`

`inference_mode` `abstractmethod` `property`

`model_settings` `property`

`model_type` `property`

`prompt_signature` `property`

`prompt_template` `property`

`init(task_id, prompt_instructions, n_words, overwrite, model_settings, prompt_signature, model_type, fewshot_examples=())`

`consolidate(results, docs_offsets)` `abstractmethod`

`extract(docs)`

`integrate(results, docs)` `abstractmethod`

`FewshotExample`

`input_fields` `property`

`target_fields` `property`

`from_dspy(example)` `classmethod`

`to_dspy()`

`Result`