DataDog
diff --git a/‎ddtrace/llmobs/_constants.py‎
Lines changed: 2 additions & 0 deletions b/‎ddtrace/llmobs/_constants.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎ddtrace/llmobs/_experiment.py‎
Lines changed: 64 additions & 22 deletions b/‎ddtrace/llmobs/_experiment.py‎
Lines changed: 64 additions & 22 deletions
diff --git a/‎ddtrace/llmobs/_llmobs.py‎
Lines changed: 28 additions & 0 deletions b/‎ddtrace/llmobs/_llmobs.py‎
Lines changed: 28 additions & 0 deletions
diff --git a/‎ddtrace/llmobs/_writer.py‎
Lines changed: 2 additions & 0 deletions b/‎ddtrace/llmobs/_writer.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎releasenotes/notes/llmobs-dne-experiments-multi-run-ef099e98a5827e49.yaml‎
Lines changed: 10 additions & 0 deletions b/‎releasenotes/notes/llmobs-dne-experiments-multi-run-ef099e98a5827e49.yaml‎
Lines changed: 10 additions & 0 deletions
diff --git a/‎tests/llmobs/llmobs_cassettes/datadog/datadog_api_unstable_llm-obs_v1_experiments_3f6922dd-477b-40dd-9fd2-baeaab0542a4_events_post_1b36f8c9.yaml‎
Lines changed: 51 additions & 0 deletions b/‎tests/llmobs/llmobs_cassettes/datadog/datadog_api_unstable_llm-obs_v1_experiments_3f6922dd-477b-40dd-9fd2-baeaab0542a4_events_post_1b36f8c9.yaml‎
Lines changed: 51 additions & 0 deletions
@@ -105,6 +105,8 @@
 PROXY_REQUEST = "llmobs.proxy_request"
 
 EXPERIMENT_ID_KEY = "_ml_obs.experiment_id"
+EXPERIMENT_RUN_ID_KEY = "_ml_obs.experiment_run_id"
+EXPERIMENT_RUN_ITERATION_KEY = "_ml_obs.experiment_run_iteration"
 EXPERIMENT_EXPECTED_OUTPUT = "_ml_obs.meta.input.expected_output"
 EXPERIMENTS_INPUT = "_ml_obs.meta.input"
 EXPERIMENTS_OUTPUT = "_ml_obs.meta.output"
 
@@ -1,5 +1,6 @@
 from concurrent.futures import ThreadPoolExecutor
 from copy import deepcopy
+import itertools
 import sys
 import traceback
 from typing import TYPE_CHECKING
@@ -82,6 +83,13 @@ class EvaluationResult(TypedDict):
     evaluations: Dict[str, Dict[str, JSONType]]
 
 
+class _ExperimentRunInfo:
+    def __init__(self, run_interation: int):
+        self._id = uuid.uuid4()
+        # always increment the representation of iteration by 1 for readability
+        self._run_iteration = run_interation + 1
+
+
 class ExperimentRowResult(TypedDict):
     idx: int
     record_id: Optional[str]
@@ -96,9 +104,24 @@ class ExperimentRowResult(TypedDict):
     error: Dict[str, Optional[str]]
 
 
+class ExperimentRun:
+    def __init__(
+        self,
+        run: _ExperimentRunInfo,
+        summary_evaluations: Dict[str, Dict[str, JSONType]],
+        rows: List[ExperimentRowResult],
+    ):
+        self.run_id = run._id
+        self.run_iteration = run._run_iteration
+        self.summary_evaluations = summary_evaluations or {}
+        self.rows = rows or []
+
+
 class ExperimentResult(TypedDict):
+    # TODO: remove these fields (summary_evaluations, rows) in the next major release (5.x)
     summary_evaluations: Dict[str, Dict[str, JSONType]]
     rows: List[ExperimentRowResult]
+    runs: List[ExperimentRun]
 
 
 class Dataset:
@@ -330,6 +353,7 @@ def __init__(
                 ]
             ]
         ] = None,
+        runs: Optional[int] = None,
     ) -> None:
         self.name = name
         self._task = task
@@ -340,6 +364,7 @@ def __init__(
         self._tags: Dict[str, str] = tags or {}
         self._tags["ddtrace.version"] = str(ddtrace.__version__)
         self._config: Dict[str, JSONType] = config or {}
+        self._runs: int = runs or 1
         self._llmobs_instance = _llmobs_instance
 
         if not project_name:
@@ -372,31 +397,47 @@ def run(self, jobs: int = 1, raise_errors: bool = False, sample_size: Optional[i
             self._config,
             convert_tags_dict_to_list(self._tags),
             self._description,
+            self._runs,
         )
         self._id = experiment_id
         self._tags["experiment_id"] = str(experiment_id)
         self._run_name = experiment_run_name
-        task_results = self._run_task(jobs, raise_errors, sample_size)
-        evaluations = self._run_evaluators(task_results, raise_errors=raise_errors)
-        summary_evals = self._run_summary_evaluators(task_results, evaluations, raise_errors)
-        experiment_results = self._merge_results(task_results, evaluations, summary_evals)
-        experiment_evals = self._generate_metrics_from_exp_results(experiment_results)
-        self._llmobs_instance._dne_client.experiment_eval_post(
-            self._id, experiment_evals, convert_tags_dict_to_list(self._tags)
-        )
+        run_results = []
+        # for backwards compatibility
+        for run_iteration in range(self._runs):
+            run = _ExperimentRunInfo(run_iteration)
+            self._tags["run_id"] = str(run._id)
+            self._tags["run_iteration"] = str(run._run_iteration)
+            task_results = self._run_task(jobs, run, raise_errors, sample_size)
+            evaluations = self._run_evaluators(task_results, raise_errors=raise_errors)
+            summary_evals = self._run_summary_evaluators(task_results, evaluations, raise_errors)
+            run_result = self._merge_results(run, task_results, evaluations, summary_evals)
+            experiment_evals = self._generate_metrics_from_exp_results(run_result)
+            self._llmobs_instance._dne_client.experiment_eval_post(
+                self._id, experiment_evals, convert_tags_dict_to_list(self._tags)
+            )
+            run_results.append(run_result)
 
-        return experiment_results
+        experiment_result: ExperimentResult = {
+            # for backwards compatibility, the first result fills the old fields of rows and summary evals
+            "summary_evaluations": run_results[0].summary_evaluations if len(run_results) > 0 else {},
+            "rows": run_results[0].rows if len(run_results) > 0 else [],
+            "runs": run_results,
+        }
+        return experiment_result
 
     @property
     def url(self) -> str:
         # FIXME: will not work for subdomain orgs
         return f"{_get_base_url()}/llm/experiments/{self._id}"
 
-    def _process_record(self, idx_record: Tuple[int, DatasetRecord]) -> Optional[TaskResult]:
+    def _process_record(self, idx_record: Tuple[int, DatasetRecord], run: _ExperimentRunInfo) -> Optional[TaskResult]:
         if not self._llmobs_instance or not self._llmobs_instance.enabled:
             return None
         idx, record = idx_record
-        with self._llmobs_instance._experiment(name=self._task.__name__, experiment_id=self._id) as span:
+        with self._llmobs_instance._experiment(
+            name=self._task.__name__, experiment_id=self._id, run_id=str(run._id), run_iteration=run._run_iteration
+        ) as span:
             span_context = self._llmobs_instance.export_span(span=span)
             if span_context:
                 span_id = span_context.get("span_id", "")
@@ -436,7 +477,9 @@ def _process_record(self, idx_record: Tuple[int, DatasetRecord]) -> Optional[Tas
                 },
             }
 
-    def _run_task(self, jobs: int, raise_errors: bool = False, sample_size: Optional[int] = None) -> List[TaskResult]:
+    def _run_task(
+        self, jobs: int, run: _ExperimentRunInfo, raise_errors: bool = False, sample_size: Optional[int] = None
+    ) -> List[TaskResult]:
         if not self._llmobs_instance or not self._llmobs_instance.enabled:
             return []
         if sample_size is not None and sample_size < len(self._dataset):
@@ -456,7 +499,9 @@ def _run_task(self, jobs: int, raise_errors: bool = False, sample_size: Optional
             subset_dataset = self._dataset
         task_results = []
         with ThreadPoolExecutor(max_workers=jobs) as executor:
-            for result in executor.map(self._process_record, enumerate(subset_dataset)):
+            for result in executor.map(
+                self._process_record, enumerate(subset_dataset), itertools.repeat(run, len(subset_dataset))
+            ):
                 if not result:
                     continue
                 task_results.append(result)
@@ -543,10 +588,11 @@ def _run_summary_evaluators(
 
     def _merge_results(
         self,
+        run: _ExperimentRunInfo,
         task_results: List[TaskResult],
         evaluations: List[EvaluationResult],
         summary_evaluations: Optional[List[EvaluationResult]],
-    ) -> ExperimentResult:
+    ) -> ExperimentRun:
         experiment_results = []
         for idx, task_result in enumerate(task_results):
             output_data = task_result["output"]
@@ -575,11 +621,7 @@ def _merge_results(
                 for name, eval_data in summary_evaluation["evaluations"].items():
                     summary_evals[name] = eval_data
 
-        result: ExperimentResult = {
-            "summary_evaluations": summary_evals,
-            "rows": experiment_results,
-        }
-        return result
+        return ExperimentRun(run, summary_evals, experiment_results)
 
     def _generate_metric_from_evaluation(
         self,
@@ -615,11 +657,11 @@ def _generate_metric_from_evaluation(
         }
 
     def _generate_metrics_from_exp_results(
-        self, experiment_result: ExperimentResult
+        self, experiment_result: ExperimentRun
     ) -> List["LLMObsExperimentEvalMetricEvent"]:
         eval_metrics = []
         latest_timestamp: int = 0
-        for exp_result in experiment_result["rows"]:
+        for exp_result in experiment_result.rows:
             evaluations = exp_result.get("evaluations") or {}
             span_id = exp_result.get("span_id", "")
             trace_id = exp_result.get("trace_id", "")
@@ -636,7 +678,7 @@ def _generate_metrics_from_exp_results(
                 )
                 eval_metrics.append(eval_metric)
 
-        for name, summary_eval_data in experiment_result.get("summary_evaluations", {}).items():
+        for name, summary_eval_data in experiment_result.summary_evaluations.items():
             if not summary_eval_data:
                 continue
             eval_metric = self._generate_metric_from_evaluation(
 
@@ -57,6 +57,8 @@
 from ddtrace.llmobs._constants import EXPERIMENT_CSV_FIELD_MAX_SIZE
 from ddtrace.llmobs._constants import EXPERIMENT_EXPECTED_OUTPUT
 from ddtrace.llmobs._constants import EXPERIMENT_ID_KEY
+from ddtrace.llmobs._constants import EXPERIMENT_RUN_ID_KEY
+from ddtrace.llmobs._constants import EXPERIMENT_RUN_ITERATION_KEY
 from ddtrace.llmobs._constants import EXPERIMENTS_INPUT
 from ddtrace.llmobs._constants import EXPERIMENTS_OUTPUT
 from ddtrace.llmobs._constants import INPUT_DOCUMENTS
@@ -480,6 +482,20 @@ def _llmobs_tags(span: Span, ml_app: str, session_id: Optional[str] = None) -> L
         existing_tags = span._get_ctx_item(TAGS)
         if existing_tags is not None:
             tags.update(existing_tags)
+
+        # set experiment tags on children spans if the tags do not already exist
+        experiment_id = span.context.get_baggage_item(EXPERIMENT_ID_KEY)
+        if experiment_id and "experiment_id" not in tags:
+            tags["experiment_id"] = experiment_id
+
+        run_id = span.context.get_baggage_item(EXPERIMENT_RUN_ID_KEY)
+        if run_id and "run_id" not in tags:
+            tags["run_id"] = run_id
+
+        run_iteration = span.context.get_baggage_item(EXPERIMENT_RUN_ITERATION_KEY)
+        if run_iteration and "run_iteration" not in tags:
+            tags["run_iteration"] = run_iteration
+
         return ["{}:{}".format(k, v) for k, v in tags.items()]
 
     def _do_annotations(self, span: Span) -> None:
@@ -814,6 +830,7 @@ def experiment(
                 ]
             ]
         ] = None,
+        runs: Optional[int] = 1,
     ) -> Experiment:
         """Initializes an Experiment to run a task on a Dataset and evaluators.
 
@@ -830,6 +847,8 @@ def experiment(
                                    to produce a single value.
                                    Must accept parameters ``inputs``, ``outputs``, ``expected_outputs``,
                                    ``evaluators_results``.
+        :param runs: The number of times to run the experiment, or, run the task for every dataset record the defined
+                     number of times.
         """
         if not callable(task):
             raise TypeError("task must be a callable function.")
@@ -870,6 +889,7 @@ def experiment(
             config=config,
             _llmobs_instance=cls._instance,
             summary_evaluators=summary_evaluators,
+            runs=runs,
         )
 
     @classmethod
@@ -1336,6 +1356,8 @@ def _experiment(
         session_id: Optional[str] = None,
         ml_app: Optional[str] = None,
         experiment_id: Optional[str] = None,
+        run_id: Optional[str] = None,
+        run_iteration: Optional[int] = None,
     ) -> Span:
         """
         Trace an LLM experiment, only used internally by the experiments SDK.
@@ -1354,6 +1376,12 @@ def _experiment(
         if experiment_id:
             span.context.set_baggage_item(EXPERIMENT_ID_KEY, experiment_id)
 
+        if run_id:
+            span.context.set_baggage_item(EXPERIMENT_RUN_ID_KEY, run_id)
+
+        if run_iteration is not None:
+            span.context.set_baggage_item(EXPERIMENT_RUN_ITERATION_KEY, run_iteration)
+
         return span
 
     @classmethod
 
@@ -639,6 +639,7 @@ def experiment_create(
         exp_config: Optional[Dict[str, JSONType]] = None,
         tags: Optional[List[str]] = None,
         description: Optional[str] = None,
+        runs: Optional[int] = 1,
     ) -> Tuple[str, str]:
         path = "/api/unstable/llm-obs/v1/experiments"
         resp = self.request(
@@ -656,6 +657,7 @@ def experiment_create(
                         "config": exp_config or {},
                         "metadata": {"tags": cast(JSONType, tags or [])},
                         "ensure_unique": True,
+                        "run_count": runs,
                     },
                 }
             },
 
@@ -0,0 +1,10 @@
+---
+features:
+  - |
+    LLM Observability: Experiments can now be run multiple times by using the optional ``runs`` argument, 
+    to assess the true performance of an experiment in the face of the non determinism of LLMs. Use the new ``ExperimentResult`` class' ``runs`` attribute to access the results and summary evaluations by run iteration.
+  - |
+    LLM Observability: Non-root experiment spans are now tagged with experiment ID, run ID, and run iteration tags.
+deprecations:
+  - |
+    LLM Observability: The ``ExperimentResult`` class' ``rows`` and ``summary_evaluations`` attributes are deprecated and will be removed in the next major release. ``ExperimentResult.rows/summary_evaluations`` attributes will only store the results of the first run iteration for multi-run experiments. Use the ``ExperimentResult.runs`` attribute instead to access experiment results and summary evaluations.
@@ -0,0 +1,51 @@
+interactions:
+- request:
+    body: '{"data": {"type": "experiments", "attributes": {"scope": "experiments",
+      "metrics": [{"metric_source": "custom", "span_id": "123", "trace_id": "456",
+      "timestamp_ms": 1234, "metric_type": "score", "label": "dummy_evaluator", "score_value":
+      0, "error": null, "tags": ["ddtrace.version:1.2.3", "experiment_id:3f6922dd-477b-40dd-9fd2-baeaab0542a4",
+      "run_id:12345678-abcd-abcd-abcd-123456789012", "run_iteration:1"], "experiment_id":
+      "3f6922dd-477b-40dd-9fd2-baeaab0542a4"}], "tags": ["ddtrace.version:1.2.3",
+      "experiment_id:3f6922dd-477b-40dd-9fd2-baeaab0542a4", "run_id:12345678-abcd-abcd-abcd-123456789012",
+      "run_iteration:1"]}}}'
+    headers:
+      Accept:
+      - '*/*'
+      ? !!python/object/apply:multidict._multidict.istr
+      - Accept-Encoding
+      : - identity
+      Connection:
+      - keep-alive
+      Content-Length:
+      - '626'
+      ? !!python/object/apply:multidict._multidict.istr
+      - Content-Type
+      : - application/json
+      User-Agent:
+      - python-requests/2.32.3
+    method: POST
+    uri: https://api.datadoghq.com/api/unstable/llm-obs/v1/experiments/3f6922dd-477b-40dd-9fd2-baeaab0542a4/events
+  response:
+    body:
+      string: ''
+    headers:
+      content-length:
+      - '0'
+      content-security-policy:
+      - frame-ancestors 'self'; report-uri https://logs.browser-intake-datadoghq.com/api/v2/logs?dd-api-key=pube4f163c23bbf91c16b8f57f56af9fc58&dd-evp-origin=content-security-policy&ddsource=csp-report&ddtags=site%3Adatadoghq.com
+      content-type:
+      - application/vnd.api+json
+      date:
+      - Wed, 12 Nov 2025 21:30:20 GMT
+      strict-transport-security:
+      - max-age=31536000; includeSubDomains; preload
+      vary:
+      - Accept-Encoding
+      x-content-type-options:
+      - nosniff
+      x-frame-options:
+      - SAMEORIGIN
+    status:
+      code: 202
+      message: Accepted
+version: 1