CrayLabs
diff --git a/‎doc/changelog.md‎
Lines changed: 1 addition & 0 deletions b/‎doc/changelog.md‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎ex/high_throughput_inference/mli_driver.py‎
Lines changed: 50 additions & 0 deletions b/‎ex/high_throughput_inference/mli_driver.py‎
Lines changed: 50 additions & 0 deletions
diff --git a/‎ex/high_throughput_inference/mock_app.py‎
Lines changed: 195 additions & 0 deletions b/‎ex/high_throughput_inference/mock_app.py‎
Lines changed: 195 additions & 0 deletions
diff --git a/‎ex/high_throughput_inference/mock_app_redis.py‎
Lines changed: 88 additions & 0 deletions b/‎ex/high_throughput_inference/mock_app_redis.py‎
Lines changed: 88 additions & 0 deletions
@@ -13,6 +13,7 @@ Jump to:
 
 Description
 
+- Add TorchWorker first implementation and mock inference app example
 - Add EnvironmentConfigLoader for ML Worker Manager
 - Add Model schema with model metadata included
 - Removed device from schemas, MessageHandler and tests
 
@@ -0,0 +1,50 @@
+
+
+import os
+import base64
+import cloudpickle
+import sys
+from smartsim import Experiment
+from smartsim._core.mli.infrastructure.worker.torch_worker import TorchWorker
+from smartsim.status import TERMINAL_STATUSES
+import time
+import typing as t
+
+device = "gpu"
+filedir = os.path.dirname(__file__)
+worker_manager_script_name = os.path.join(filedir, "standalone_workermanager.py")
+app_script_name = os.path.join(filedir, "mock_app.py")
+model_name = os.path.join(filedir, f"resnet50.{device.upper()}.pt")
+
+transport: t.Literal["hsta", "tcp"] = "hsta"
+
+os.environ["SMARTSIM_DRAGON_TRANSPORT"] = transport
+
+exp_path = os.path.join(filedir, f"MLI_proto_{transport.upper()}")
+os.makedirs(exp_path, exist_ok=True)
+exp = Experiment("MLI_proto", launcher="dragon", exp_path=exp_path)
+
+torch_worker_str = base64.b64encode(cloudpickle.dumps(TorchWorker)).decode("ascii")
+
+worker_manager_rs = exp.create_run_settings(sys.executable, [worker_manager_script_name, "--device", device, "--worker_class", torch_worker_str])
+worker_manager = exp.create_model("worker_manager", run_settings=worker_manager_rs)
+worker_manager.attach_generator_files(to_copy=[worker_manager_script_name])
+
+app_rs = exp.create_run_settings(sys.executable, exe_args = [app_script_name, "--device", device])
+app = exp.create_model("app", run_settings=app_rs)
+app.attach_generator_files(to_copy=[app_script_name], to_symlink=[model_name])
+
+
+exp.generate(worker_manager, app, overwrite=True)
+exp.start(worker_manager, app, block=False)
+
+while True:
+    if exp.get_status(app)[0] in TERMINAL_STATUSES:
+        exp.stop(worker_manager)
+        break
+    if exp.get_status(worker_manager)[0] in TERMINAL_STATUSES:
+        exp.stop(app)
+        break
+    time.sleep(5)
+
+print("Exiting.")
@@ -0,0 +1,195 @@
+# BSD 2-Clause License
+#
+# Copyright (c) 2021-2024, Hewlett Packard Enterprise
+# All rights reserved.
+#
+# Redistribution and use in source and binary forms, with or without
+# modification, are permitted provided that the following conditions are met:
+#
+# 1. Redistributions of source code must retain the above copyright notice, this
+#    list of conditions and the following disclaimer.
+#
+# 2. Redistributions in binary form must reproduce the above copyright notice,
+#    this list of conditions and the following disclaimer in the documentation
+#    and/or other materials provided with the distribution.
+#
+# THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+# AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+# IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
+# DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE
+# FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+# DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+# SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+# CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+# OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+# OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+
+# isort: off
+import dragon
+from dragon import fli
+from dragon.channels import Channel
+import dragon.channels
+from dragon.data.ddict.ddict import DDict
+from dragon.globalservices.api_setup import connect_to_infrastructure
+from dragon.utils import b64decode, b64encode
+
+# isort: on
+
+import argparse
+import io
+import numpy
+import os
+import time
+import torch
+import numbers
+
+from collections import OrderedDict
+from smartsim._core.mli.message_handler import MessageHandler
+from smartsim.log import get_logger
+
+logger = get_logger("App")
+
+class ProtoClient:
+    def __init__(self, timing_on: bool):
+        connect_to_infrastructure()
+        ddict_str = os.environ["SS_DRG_DDICT"]
+        self._ddict = DDict.attach(ddict_str)
+        to_worker_fli_str = None
+        while to_worker_fli_str is None:
+            try:
+                to_worker_fli_str = self._ddict["to_worker_fli"]
+                self._to_worker_fli = fli.FLInterface.attach(to_worker_fli_str)
+            except KeyError:
+                time.sleep(1)
+        self._from_worker_ch = Channel.make_process_local()
+        self._from_worker_ch_serialized = self._from_worker_ch.serialize()
+        self._to_worker_ch = Channel.make_process_local()
+
+        self._start = None
+        self._interm = None
+        self._timings: OrderedDict[str, list[numbers.Number]] = OrderedDict()
+        self._timing_on = timing_on
+
+    def _add_label_to_timings(self, label: str):
+        if label not in self._timings:
+            self._timings[label] = []
+
+    @staticmethod
+    def _format_number(number: numbers.Number):
+        return f"{number:0.4e}"
+
+    def start_timings(self, batch_size: int):
+        if self._timing_on:
+            self._add_label_to_timings("batch_size")
+            self._timings["batch_size"].append(batch_size)
+            self._start = time.perf_counter()
+            self._interm = time.perf_counter()
+
+    def end_timings(self):
+        if self._timing_on:
+            self._add_label_to_timings("total_time")
+            self._timings["total_time"].append(self._format_number(time.perf_counter()-self._start))
+
+    def measure_time(self, label: str):
+        if self._timing_on:
+            self._add_label_to_timings(label)
+            self._timings[label].append(self._format_number(time.perf_counter()-self._interm))
+            self._interm = time.perf_counter()
+
+    def print_timings(self, to_file: bool = False):
+        print(" ".join(self._timings.keys()))
+        value_array = numpy.array([value for  value in self._timings.values()], dtype=float)
+        value_array = numpy.transpose(value_array)
+        for i in range(value_array.shape[0]):
+            print(" ".join(self._format_number(value) for value in value_array[i]))
+        if to_file:
+            numpy.save("timings.npy", value_array)
+            numpy.savetxt("timings.txt", value_array)
+
+
+    def run_model(self, model: bytes | str, batch: torch.Tensor):
+        self.start_timings(batch.shape[0])
+        built_tensor = MessageHandler.build_tensor(
+            batch.numpy(), "c", "float32", list(batch.shape))
+        self.measure_time("build_tensor")
+        built_model = None
+        if isinstance(model, str):
+            model_arg = MessageHandler.build_model_key(model)
+        else:
+            model_arg = MessageHandler.build_model(model, "resnet-50", "1.0")
+        request = MessageHandler.build_request(
+            reply_channel=self._from_worker_ch_serialized,
+            model= model_arg,
+            inputs=[built_tensor],
+            outputs=[],
+            output_descriptors=[],
+            custom_attributes=None,
+        )
+        self.measure_time("build_request")
+        request_bytes = MessageHandler.serialize_request(request)
+        self.measure_time("serialize_request")
+        with self._to_worker_fli.sendh(timeout=None, stream_channel=self._to_worker_ch) as to_sendh:
+            to_sendh.send_bytes(request_bytes)
+        logger.info(f"Message size: {len(request_bytes)} bytes")
+
+        self.measure_time("send")
+        with self._from_worker_ch.recvh(timeout=None) as from_recvh:
+            resp = from_recvh.recv_bytes(timeout=None)
+            self.measure_time("receive")
+            response = MessageHandler.deserialize_response(resp)
+            self.measure_time("deserialize_response")
+            result = torch.from_numpy(
+                numpy.frombuffer(
+                    response.result.data[0].blob,
+                    dtype=str(response.result.data[0].tensorDescriptor.dataType),
+                )
+            )
+            self.measure_time("deserialize_tensor")
+
+        self.end_timings()
+        return result
+
+    def set_model(self, key: str, model: bytes):
+        self._ddict[key] = model
+
+
+class ResNetWrapper():
+    def __init__(self, name: str, model: str):
+        self._model = torch.jit.load(model)
+        self._name = name
+        buffer = io.BytesIO()
+        scripted = torch.jit.trace(self._model, self.get_batch())
+        torch.jit.save(scripted, buffer)
+        self._serialized_model = buffer.getvalue()
+
+    def get_batch(self, batch_size: int=32):
+        return torch.randn((batch_size, 3, 224, 224), dtype=torch.float32)
+
+    @property
+    def model(self):
+        return self._serialized_model
+
+    @property
+    def name(self):
+        return self._name
+
+if __name__ == "__main__":
+
+    parser = argparse.ArgumentParser("Mock application")
+    parser.add_argument("--device", default="cpu")
+    args = parser.parse_args()
+
+    resnet = ResNetWrapper("resnet50", f"resnet50.{args.device.upper()}.pt")
+
+    client = ProtoClient(timing_on=True)
+    client.set_model(resnet.name, resnet.model)
+
+    total_iterations = 100
+
+    for batch_size in [1, 2, 4, 8, 16, 32, 64, 128]:
+        logger.info(f"Batch size: {batch_size}")
+        for iteration_number in range(total_iterations + int(batch_size==1)):
+            logger.info(f"Iteration: {iteration_number}")
+            client.run_model(resnet.name, resnet.get_batch(batch_size))
+
+    client.print_timings(to_file=True)
@@ -0,0 +1,88 @@
+# BSD 2-Clause License
+#
+# Copyright (c) 2021-2024, Hewlett Packard Enterprise
+# All rights reserved.
+#
+# Redistribution and use in source and binary forms, with or without
+# modification, are permitted provided that the following conditions are met:
+#
+# 1. Redistributions of source code must retain the above copyright notice, this
+#    list of conditions and the following disclaimer.
+#
+# 2. Redistributions in binary form must reproduce the above copyright notice,
+#    this list of conditions and the following disclaimer in the documentation
+#    and/or other materials provided with the distribution.
+#
+# THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+# AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+# IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
+# DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE
+# FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+# DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+# SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+# CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+# OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+# OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+
+import argparse
+import io
+import numpy
+import time
+import torch
+from smartsim.log import get_logger
+from smartredis import Client
+
+logger = get_logger("App")
+
+class ResNetWrapper():
+    def __init__(self, name: str, model: str):
+        self._model = torch.jit.load(model)
+        self._name = name
+        buffer = io.BytesIO()
+        scripted = torch.jit.trace(self._model, self.get_batch())
+        torch.jit.save(scripted, buffer)
+        self._serialized_model = buffer.getvalue()
+
+    def get_batch(self, batch_size: int=32):
+        return torch.randn((batch_size, 3, 224, 224), dtype=torch.float32)
+
+    @property
+    def model(self):
+        return self._serialized_model
+
+    @property
+    def name(self):
+        return self._name
+
+if __name__ == "__main__":
+
+    parser = argparse.ArgumentParser("Mock application")
+    parser.add_argument("--device", default="cpu")
+    args = parser.parse_args()
+
+    resnet = ResNetWrapper("resnet50", f"resnet50.{args.device.upper()}.pt")
+
+    client = Client(cluster=False, address=None)
+    client.set_model(resnet.name, resnet.model, backend='TORCH', device=args.device.upper())
+
+    total_iterations = 100
+    timings=[]
+    for batch_size in [1, 2, 4, 8, 16, 32, 64, 128]:
+        logger.info(f"Batch size: {batch_size}")
+        for iteration_number in range(total_iterations + int(batch_size==1)):
+            timing = [batch_size]
+            logger.info(f"Iteration: {iteration_number}")
+            start = time.perf_counter()
+            client.put_tensor(name="batch", data=resnet.get_batch(batch_size).numpy())
+            client.run_model(name=resnet.name, inputs=["batch"], outputs=["result"])
+            result = client.get_tensor(name="result")
+            end = time.perf_counter()
+            timing.append(end-start)
+            timings.append(timing)
+
+
+
+    timings_np = numpy.asarray(timings)
+    numpy.save("timings.npy", timings_np)
+    for timing in timings:
+        print(" ".join(str(t) for t in timing))