add test and address comments

gary-huang · gary-huang · commit 6934abd661da · 2025-11-17T11:18:43.000-05:00
diff --git a/ddtrace/llmobs/_experiment.py b/ddtrace/llmobs/_experiment.py
@@ -118,6 +118,7 @@ def __init__(
 
 
 class ExperimentResult(TypedDict):
+    # TODO: remove these fields (summary_evaluations, rows) in the next major release (5.x)
     summary_evaluations: Dict[str, Dict[str, JSONType]]
     rows: List[ExperimentRowResult]
     runs: List[ExperimentRun]
diff --git a/ddtrace/llmobs/_llmobs.py b/ddtrace/llmobs/_llmobs.py
@@ -457,7 +457,7 @@ def _llmobs_tags(span: Span, ml_app: str, session_id: Optional[str] = None) -> L
         # set experiment tags on children spans if the tags do not already exist
         experiment_id = span.context.get_baggage_item(EXPERIMENT_ID_KEY)
         if experiment_id and "experiment_id" not in tags:
-                tags["experiment_id"] = experiment_id
+            tags["experiment_id"] = experiment_id
 
         run_id = span.context.get_baggage_item(EXPERIMENT_RUN_ID_KEY)
         if run_id and "run_id" not in tags:
diff --git a/releasenotes/notes/llmobs-dne-experiments-multi-run-ef099e98a5827e49.yaml b/releasenotes/notes/llmobs-dne-experiments-multi-run-ef099e98a5827e49.yaml
@@ -2,10 +2,9 @@
 features:
   - |
     LLM Observability: Experiments can now be run multiple times by using the optional ``runs`` argument, 
-    to assess the true performance of an experiment in the face of the non determinism of LLMs. Use the new ``ExperimentResult`` class' ``runs`` attribute to access the results by run iteration.
+    to assess the true performance of an experiment in the face of the non determinism of LLMs. Use the new ``ExperimentResult`` class' ``runs`` attribute to access the results and summary evaluations by run iteration.
+  - |
+    LLM Observability: Non-root experiment spans are now tagged with experiment ID, run ID, and run iteration tags.
 deprecations:
   - |
     LLM Observability: The ``ExperimentResult`` class' ``rows`` and ``summary_evaluations`` attributes are deprecated and will be removed in the next major release. ``ExperimentResult.rows/summary_evaluations`` attributes will only store the results of the first run iteration for multi-run experiments. Use the ``ExperimentResult.runs`` attribute instead to access experiment results and summary evaluations.
-fixes:
-  - |
-    LLM Observability: Non-root experiment spans are now tagged with experiment ID, run ID, and run iteration tags.
diff --git a/tests/llmobs/llmobs_cassettes/datadog/datadog_api_unstable_llm-obs_v1_experiments_b1d96a7b-aea5-48a6-9bff-44a4d66e5788_events_post_85056411.yaml b/tests/llmobs/llmobs_cassettes/datadog/datadog_api_unstable_llm-obs_v1_experiments_b1d96a7b-aea5-48a6-9bff-44a4d66e5788_events_post_85056411.yaml
@@ -0,0 +1,51 @@
+interactions:
+- request:
+    body: '{"data": {"type": "experiments", "attributes": {"scope": "experiments",
+      "metrics": [{"metric_source": "custom", "span_id": "123", "trace_id": "456",
+      "timestamp_ms": 1234, "metric_type": "score", "label": "dummy_evaluator", "score_value":
+      0, "error": null, "tags": ["ddtrace.version:3.19.0.dev42+g1f1eda22d.d20251114",
+      "experiment_id:b1d96a7b-aea5-48a6-9bff-44a4d66e5788", "run_id:12345678-abcd-abcd-abcd-123456789012",
+      "run_iteration:1"], "experiment_id": "b1d96a7b-aea5-48a6-9bff-44a4d66e5788"}],
+      "tags": ["ddtrace.version:3.19.0.dev42+g1f1eda22d.d20251114", "experiment_id:b1d96a7b-aea5-48a6-9bff-44a4d66e5788",
+      "run_id:12345678-abcd-abcd-abcd-123456789012", "run_iteration:1"]}}}'
+    headers:
+      Accept:
+      - '*/*'
+      ? !!python/object/apply:multidict._multidict.istr
+      - Accept-Encoding
+      : - identity
+      Connection:
+      - keep-alive
+      Content-Length:
+      - '682'
+      ? !!python/object/apply:multidict._multidict.istr
+      - Content-Type
+      : - application/json
+      User-Agent:
+      - python-requests/2.32.3
+    method: POST
+    uri: https://api.datadoghq.com/api/unstable/llm-obs/v1/experiments/b1d96a7b-aea5-48a6-9bff-44a4d66e5788/events
+  response:
+    body:
+      string: ''
+    headers:
+      content-length:
+      - '0'
+      content-security-policy:
+      - frame-ancestors 'self'; report-uri https://logs.browser-intake-datadoghq.com/api/v2/logs?dd-api-key=pube4f163c23bbf91c16b8f57f56af9fc58&dd-evp-origin=content-security-policy&ddsource=csp-report&ddtags=site%3Adatadoghq.com
+      content-type:
+      - application/vnd.api+json
+      date:
+      - Mon, 17 Nov 2025 07:47:20 GMT
+      strict-transport-security:
+      - max-age=31536000; includeSubDomains; preload
+      vary:
+      - Accept-Encoding
+      x-content-type-options:
+      - nosniff
+      x-frame-options:
+      - SAMEORIGIN
+    status:
+      code: 202
+      message: Accepted
+version: 1
diff --git a/tests/llmobs/llmobs_cassettes/datadog/datadog_api_unstable_llm-obs_v1_experiments_b1d96a7b-aea5-48a6-9bff-44a4d66e5788_events_post_9062788b.yaml b/tests/llmobs/llmobs_cassettes/datadog/datadog_api_unstable_llm-obs_v1_experiments_b1d96a7b-aea5-48a6-9bff-44a4d66e5788_events_post_9062788b.yaml
@@ -0,0 +1,56 @@
+interactions:
+- request:
+    body: '{"data": {"type": "experiments", "attributes": {"scope": "experiments",
+      "metrics": [{"metric_source": "custom", "span_id": "123", "trace_id": "456",
+      "timestamp_ms": 1234, "metric_type": "score", "label": "dummy_evaluator", "score_value":
+      0, "error": null, "tags": ["ddtrace.version:3.19.0.dev42+g1f1eda22d.d20251114",
+      "experiment_id:b1d96a7b-aea5-48a6-9bff-44a4d66e5788", "run_id:12345678-abcd-abcd-abcd-123456789012",
+      "run_iteration:1"], "experiment_id": "b1d96a7b-aea5-48a6-9bff-44a4d66e5788"},
+      {"metric_source": "summary", "span_id": "", "trace_id": "", "timestamp_ms":
+      1234, "metric_type": "score", "label": "dummy_summary_evaluator", "score_value":
+      4, "error": null, "tags": ["ddtrace.version:3.19.0.dev42+g1f1eda22d.d20251114",
+      "experiment_id:b1d96a7b-aea5-48a6-9bff-44a4d66e5788", "run_id:12345678-abcd-abcd-abcd-123456789012",
+      "run_iteration:1"], "experiment_id": "b1d96a7b-aea5-48a6-9bff-44a4d66e5788"}],
+      "tags": ["ddtrace.version:3.19.0.dev42+g1f1eda22d.d20251114", "experiment_id:b1d96a7b-aea5-48a6-9bff-44a4d66e5788",
+      "run_id:12345678-abcd-abcd-abcd-123456789012", "run_iteration:1"]}}}'
+    headers:
+      Accept:
+      - '*/*'
+      ? !!python/object/apply:multidict._multidict.istr
+      - Accept-Encoding
+      : - identity
+      Connection:
+      - keep-alive
+      Content-Length:
+      - '1098'
+      ? !!python/object/apply:multidict._multidict.istr
+      - Content-Type
+      : - application/json
+      User-Agent:
+      - python-requests/2.32.3
+    method: POST
+    uri: https://api.datadoghq.com/api/unstable/llm-obs/v1/experiments/b1d96a7b-aea5-48a6-9bff-44a4d66e5788/events
+  response:
+    body:
+      string: ''
+    headers:
+      content-length:
+      - '0'
+      content-security-policy:
+      - frame-ancestors 'self'; report-uri https://logs.browser-intake-datadoghq.com/api/v2/logs?dd-api-key=pube4f163c23bbf91c16b8f57f56af9fc58&dd-evp-origin=content-security-policy&ddsource=csp-report&ddtags=site%3Adatadoghq.com
+      content-type:
+      - application/vnd.api+json
+      date:
+      - Mon, 17 Nov 2025 07:47:22 GMT
+      strict-transport-security:
+      - max-age=31536000; includeSubDomains; preload
+      vary:
+      - Accept-Encoding
+      x-content-type-options:
+      - nosniff
+      x-frame-options:
+      - SAMEORIGIN
+    status:
+      code: 202
+      message: Accepted
+version: 1
diff --git a/tests/llmobs/llmobs_cassettes/datadog/datadog_api_unstable_llm-obs_v1_experiments_fab62630-6e2a-4c5f-9e05-26e601f0bc08_events_post_18a48a17.yaml b/tests/llmobs/llmobs_cassettes/datadog/datadog_api_unstable_llm-obs_v1_experiments_fab62630-6e2a-4c5f-9e05-26e601f0bc08_events_post_18a48a17.yaml
@@ -0,0 +1,51 @@
+interactions:
+- request:
+    body: '{"data": {"type": "experiments", "attributes": {"scope": "experiments",
+      "metrics": [{"metric_source": "custom", "span_id": "123", "trace_id": "456",
+      "timestamp_ms": 1234, "metric_type": "score", "label": "dummy_evaluator", "score_value":
+      0, "error": null, "tags": ["ddtrace.version:3.19.0.dev42+g1f1eda22d.d20251114",
+      "experiment_id:fab62630-6e2a-4c5f-9e05-26e601f0bc08", "run_id:12345678-abcd-abcd-abcd-123456789012",
+      "run_iteration:1"], "experiment_id": "fab62630-6e2a-4c5f-9e05-26e601f0bc08"}],
+      "tags": ["ddtrace.version:3.19.0.dev42+g1f1eda22d.d20251114", "experiment_id:fab62630-6e2a-4c5f-9e05-26e601f0bc08",
+      "run_id:12345678-abcd-abcd-abcd-123456789012", "run_iteration:1"]}}}'
+    headers:
+      Accept:
+      - '*/*'
+      ? !!python/object/apply:multidict._multidict.istr
+      - Accept-Encoding
+      : - identity
+      Connection:
+      - keep-alive
+      Content-Length:
+      - '682'
+      ? !!python/object/apply:multidict._multidict.istr
+      - Content-Type
+      : - application/json
+      User-Agent:
+      - python-requests/2.32.3
+    method: POST
+    uri: https://api.datadoghq.com/api/unstable/llm-obs/v1/experiments/fab62630-6e2a-4c5f-9e05-26e601f0bc08/events
+  response:
+    body:
+      string: ''
+    headers:
+      content-length:
+      - '0'
+      content-security-policy:
+      - frame-ancestors 'self'; report-uri https://logs.browser-intake-datadoghq.com/api/v2/logs?dd-api-key=pube4f163c23bbf91c16b8f57f56af9fc58&dd-evp-origin=content-security-policy&ddsource=csp-report&ddtags=site%3Adatadoghq.com
+      content-type:
+      - application/vnd.api+json
+      date:
+      - Mon, 17 Nov 2025 07:47:21 GMT
+      strict-transport-security:
+      - max-age=31536000; includeSubDomains; preload
+      vary:
+      - Accept-Encoding
+      x-content-type-options:
+      - nosniff
+      x-frame-options:
+      - SAMEORIGIN
+    status:
+      code: 202
+      message: Accepted
+version: 1
diff --git a/tests/llmobs/llmobs_cassettes/datadog/datadog_api_unstable_llm-obs_v1_experiments_post_0a6cab63.yaml b/tests/llmobs/llmobs_cassettes/datadog/datadog_api_unstable_llm-obs_v1_experiments_post_0a6cab63.yaml
@@ -0,0 +1,48 @@
+interactions:
+- request:
+    body: '{"data": {"type": "experiments", "attributes": {"name": "test_experiment",
+      "description": "", "dataset_id": "0969efc9-f104-45cc-b955-25b329e91293", "project_id":
+      "f0a6723e-a7e8-4efd-a94a-b892b7b6fbf9", "dataset_version": 1, "config": {},
+      "metadata": {"tags": ["ddtrace.version:3.19.0.dev42+g1f1eda22d.d20251114"]},
+      "ensure_unique": true, "run_count": 1}}}'
+    headers:
+      Accept:
+      - '*/*'
+      ? !!python/object/apply:multidict._multidict.istr
+      - Accept-Encoding
+      : - identity
+      Connection:
+      - keep-alive
+      Content-Length:
+      - '355'
+      ? !!python/object/apply:multidict._multidict.istr
+      - Content-Type
+      : - application/json
+      User-Agent:
+      - python-requests/2.32.3
+    method: POST
+    uri: https://api.datadoghq.com/api/unstable/llm-obs/v1/experiments
+  response:
+    body:
+      string: '{"data":{"id":"b1d96a7b-aea5-48a6-9bff-44a4d66e5788","type":"experiments","attributes":{"author":{"id":"de473b30-eb9f-11e9-a77a-c7405862b8bd"},"config":{},"created_at":"2025-11-17T07:47:20.335980528Z","dataset_id":"0969efc9-f104-45cc-b955-25b329e91293","dataset_version":1,"description":"","experiment":"test_experiment","metadata":{"tags":["ddtrace.version:3.19.0.dev42+g1f1eda22d.d20251114"]},"name":"test_experiment-1763365640335","project_id":"f0a6723e-a7e8-4efd-a94a-b892b7b6fbf9","updated_at":"2025-11-17T07:47:20.335980602Z"}}}'
+    headers:
+      content-length:
+      - '534'
+      content-security-policy:
+      - frame-ancestors 'self'; report-uri https://logs.browser-intake-datadoghq.com/api/v2/logs?dd-api-key=pube4f163c23bbf91c16b8f57f56af9fc58&dd-evp-origin=content-security-policy&ddsource=csp-report&ddtags=site%3Adatadoghq.com
+      content-type:
+      - application/vnd.api+json
+      date:
+      - Mon, 17 Nov 2025 07:47:20 GMT
+      strict-transport-security:
+      - max-age=31536000; includeSubDomains; preload
+      vary:
+      - Accept-Encoding
+      x-content-type-options:
+      - nosniff
+      x-frame-options:
+      - SAMEORIGIN
+    status:
+      code: 200
+      message: OK
+version: 1
diff --git a/tests/llmobs/llmobs_cassettes/datadog/datadog_api_unstable_llm-obs_v1_experiments_post_9354fe4e.yaml b/tests/llmobs/llmobs_cassettes/datadog/datadog_api_unstable_llm-obs_v1_experiments_post_9354fe4e.yaml
@@ -0,0 +1,48 @@
+interactions:
+- request:
+    body: '{"data": {"type": "experiments", "attributes": {"name": "test_experiment",
+      "description": "", "dataset_id": "0969efc9-f104-45cc-b955-25b329e91293", "project_id":
+      "c4b49fb5-7b16-46e1-86f0-de5800e8a56c", "dataset_version": 1, "config": {},
+      "metadata": {"tags": ["ddtrace.version:3.19.0.dev42+g1f1eda22d.d20251114"]},
+      "ensure_unique": true, "run_count": 1}}}'
+    headers:
+      Accept:
+      - '*/*'
+      ? !!python/object/apply:multidict._multidict.istr
+      - Accept-Encoding
+      : - identity
+      Connection:
+      - keep-alive
+      Content-Length:
+      - '355'
+      ? !!python/object/apply:multidict._multidict.istr
+      - Content-Type
+      : - application/json
+      User-Agent:
+      - python-requests/2.32.3
+    method: POST
+    uri: https://api.datadoghq.com/api/unstable/llm-obs/v1/experiments
+  response:
+    body:
+      string: '{"data":{"id":"fab62630-6e2a-4c5f-9e05-26e601f0bc08","type":"experiments","attributes":{"author":{"id":"de473b30-eb9f-11e9-a77a-c7405862b8bd"},"config":{},"created_at":"2025-11-17T07:47:21.297487816Z","dataset_id":"0969efc9-f104-45cc-b955-25b329e91293","dataset_version":1,"description":"","experiment":"test_experiment","metadata":{"tags":["ddtrace.version:3.19.0.dev42+g1f1eda22d.d20251114"]},"name":"test_experiment-1763365641297","project_id":"c4b49fb5-7b16-46e1-86f0-de5800e8a56c","updated_at":"2025-11-17T07:47:21.29748789Z"}}}'
+    headers:
+      content-length:
+      - '533'
+      content-security-policy:
+      - frame-ancestors 'self'; report-uri https://logs.browser-intake-datadoghq.com/api/v2/logs?dd-api-key=pube4f163c23bbf91c16b8f57f56af9fc58&dd-evp-origin=content-security-policy&ddsource=csp-report&ddtags=site%3Adatadoghq.com
+      content-type:
+      - application/vnd.api+json
+      date:
+      - Mon, 17 Nov 2025 07:47:21 GMT
+      strict-transport-security:
+      - max-age=31536000; includeSubDomains; preload
+      vary:
+      - Accept-Encoding
+      x-content-type-options:
+      - nosniff
+      x-frame-options:
+      - SAMEORIGIN
+    status:
+      code: 200
+      message: OK
+version: 1
diff --git a/tests/llmobs/test_experiments.py b/tests/llmobs/test_experiments.py
@@ -18,10 +18,12 @@
 from typing import List
 from typing import Optional
 from unittest.mock import MagicMock
+from uuid import UUID
 
 import mock
 import pytest
 
+import ddtrace
 from ddtrace.llmobs._experiment import Dataset
 from ddtrace.llmobs._experiment import DatasetRecord
 from ddtrace.llmobs._experiment import _ExperimentRunInfo
@@ -64,6 +66,9 @@ def dummy_summary_evaluator_using_missing_eval_results(inputs, outputs, expected
     return len(inputs) + len(outputs) + len(expected_outputs) + len(evaluators_results["non_existent_evaluator"])
 
 
+DUMMY_EXPERIMENT_FIRST_RUN_ID = UUID("12345678-abcd-abcd-abcd-123456789012")
+
+
 def run_info_with_stable_id(iteration: int, run_id: Optional[str] = None) -> _ExperimentRunInfo:
     eri = _ExperimentRunInfo(iteration)
     eri._id = "12345678-abcd-abcd-abcd-123456789012"
@@ -1635,4 +1640,30 @@ def test_experiment_span_written_to_experiment_scope(llmobs, llmobs_events, test
     assert "dataset_id:{}".format(test_dataset_one_record._id) in event["tags"]
     assert "dataset_record_id:{}".format(test_dataset_one_record._records[0]["record_id"]) in event["tags"]
     assert "experiment_id:1234567890" in event["tags"]
+    assert f"run_id:{DUMMY_EXPERIMENT_FIRST_RUN_ID}" in event["tags"]
+    assert "run_iteration:1" in event["tags"]
+    assert f"ddtrace.version:{ddtrace.__version__}" in event["tags"]
     assert event["_dd"]["scope"] == "experiments"
+
+
+def test_experiment_span_multi_run_tags(llmobs, llmobs_events, test_dataset_one_record):
+    exp = llmobs.experiment("test_experiment", dummy_task, test_dataset_one_record, [dummy_evaluator])
+    exp._id = "1234567890"
+    for i in range(2):
+        exp._run_task(1, run=run_info_with_stable_id(i), raise_errors=False)
+        assert len(llmobs_events) == i + 1
+        event = llmobs_events[i]
+        assert event["name"] == "dummy_task"
+        for key in ("span_id", "trace_id", "parent_id", "start_ns", "duration", "metrics"):
+            assert event[key] == mock.ANY
+        assert event["status"] == "ok"
+        assert event["meta"]["input"] == '{"prompt": "What is the capital of France?"}'
+        assert event["meta"]["output"] == '{"prompt": "What is the capital of France?"}'
+        assert event["meta"]["expected_output"] == '{"answer": "Paris"}'
+        assert "dataset_id:{}".format(test_dataset_one_record._id) in event["tags"]
+        assert "dataset_record_id:{}".format(test_dataset_one_record._records[0]["record_id"]) in event["tags"]
+        assert "experiment_id:1234567890" in event["tags"]
+        assert f"run_id:{DUMMY_EXPERIMENT_FIRST_RUN_ID}" in event["tags"]
+        assert f"run_iteration:{i + 1}" in event["tags"]
+        assert f"ddtrace.version:{ddtrace.__version__}" in event["tags"]
+        assert event["_dd"]["scope"] == "experiments"