From 33ab7deb6d76a06616b7055f754e9fbbd0ec517f Mon Sep 17 00:00:00 2001
From: yanzin00 <ylsg0303@gmail.com>
Date: Tue, 17 Jun 2025 16:22:23 -0300
Subject: [PATCH 1/8] sparse array in-place send/recv

---
 src/mpi.jl  | 90 ++++++++++++++++++++++++++++++++++++-----------------
 test/mpi.jl | 56 +++++++++++++++++++++++++--------
 2 files changed, 105 insertions(+), 41 deletions(-)

diff --git a/src/mpi.jl b/src/mpi.jl
index b2d1d2b6e..23f134d8b 100644
--- a/src/mpi.jl
+++ b/src/mpi.jl
@@ -404,6 +404,19 @@ const DEADLOCK_WARN_PERIOD = TaskLocalValue{Float64}(()->10.0)
 const DEADLOCK_TIMEOUT_PERIOD = TaskLocalValue{Float64}(()->60.0)
 const RECV_WAITING = Base.Lockable(Dict{Tuple{MPI.Comm, Int, Int}, Base.Event}())
 
+struct InplaceInfo
+    type::DataType
+    shape::Tuple
+end
+struct InplaceSparseInfo
+    type::DataType
+    m::Int
+    n::Int
+    colptr::Int
+    rowval::Int
+    nzval::Int
+end
+
 function supports_inplace_mpi(value)
     if value isa DenseArray && isbitstype(eltype(value))
         return true
@@ -412,16 +425,17 @@ function supports_inplace_mpi(value)
     end
 end
 function recv_yield!(buffer, comm, src, tag)
-    println("buffer recv: $buffer, type of buffer: $(typeof(buffer)), is in place? $(supports_inplace_mpi(buffer))")
+    #println("buffer recv: $buffer, type of buffer: $(typeof(buffer)), is in place? $(supports_inplace_mpi(buffer))")
     if !supports_inplace_mpi(buffer)
         return recv_yield(comm, src, tag), false
     end
+    
     time_start = time_ns()
     detect = DEADLOCK_DETECT[]
     warn_period = round(UInt64, DEADLOCK_WARN_PERIOD[] * 1e9)
     timeout_period = round(UInt64, DEADLOCK_TIMEOUT_PERIOD[] * 1e9)
     rank = MPI.Comm_rank(comm)
-    Core.println("[rank $(MPI.Comm_rank(comm))][tag $tag] Starting recv! from [$src]")
+    #Core.println("[rank $(MPI.Comm_rank(comm))][tag $tag] Starting recv! from [$src]")
 
     # Ensure no other receiver is waiting
     our_event = Base.Event()
@@ -460,7 +474,7 @@ function recv_yield!(buffer, comm, src, tag)
                         notify(our_event)
                     end
                     #Core.println("[rank $(MPI.Comm_rank(comm))][tag $tag] Released lock")
-                    return value, true
+                    return buffer, true
                 end
                 warn_period = mpi_deadlock_detect(detect, time_start, warn_period, timeout_period, rank, tag, "recv", src)
                 yield()
@@ -470,17 +484,10 @@ function recv_yield!(buffer, comm, src, tag)
         yield()
     end
 end
-struct InplaceInfo
-    type::DataType
-    shape::Tuple
-end
+
 function recv_yield(comm, src, tag)
-    time_start = time_ns()
-    detect = DEADLOCK_DETECT[]
-    warn_period = round(UInt64, DEADLOCK_WARN_PERIOD[] * 1e9)
-    timeout_period = round(UInt64, DEADLOCK_TIMEOUT_PERIOD[] * 1e9)
     rank = MPI.Comm_rank(comm)
-    Core.println("[rank $(MPI.Comm_rank(comm))][tag $tag] Starting recv from [$src]")
+    #Core.println("[rank $(MPI.Comm_rank(comm))][tag $tag] Starting recv from [$src]")
 
     # Ensure no other receiver is waiting
     our_event = Base.Event()
@@ -494,7 +501,7 @@ function recv_yield(comm, src, tag)
         end
     end
     if other_event !== nothing
-        #Core.println("[rank $(MPI.Comm_rank(comm))][tag $tag] Waiting for other receiver...")
+        Core.println("[rank $(MPI.Comm_rank(comm))][tag $tag] Waitingg for other receiver...")
         wait(other_event)
         @goto retry
     end
@@ -503,7 +510,7 @@ function recv_yield(comm, src, tag)
     type = nothing
     @label receive
     value = recv_yield_serialized(comm, rank, src, tag)
-    if value isa InplaceInfo
+    if value isa InplaceInfo || value isa InplaceSparseInfo
         value = recv_yield_inplace(value, comm, rank, src, tag)
     end
     lock(RECV_WAITING) do waiting
@@ -512,11 +519,13 @@ function recv_yield(comm, src, tag)
     end
     return value
 end
-function recv_yield_serialized(comm, my_rank, their_rank, tag)
+
+function recv_yield_inplace!(array, comm, my_rank, their_rank, tag)
     time_start = time_ns()
     detect = DEADLOCK_DETECT[]
     warn_period = round(UInt64, DEADLOCK_WARN_PERIOD[] * 1e9)
     timeout_period = round(UInt64, DEADLOCK_TIMEOUT_PERIOD[] * 1e9)
+
     while true
         (got, msg, stat) = MPI.Improbe(their_rank, tag, comm, MPI.Status)
         if got
@@ -524,25 +533,44 @@ function recv_yield_serialized(comm, my_rank, their_rank, tag)
                 error("recv_yield failed with error $(MPI.Get_error(stat))")
             end
             count = MPI.Get_count(stat, UInt8)
-            buf = Array{UInt8}(undef, count)
-            req = MPI.Imrecv!(MPI.Buffer(buf), msg)
+            @assert count == sizeof(array) "recv_yield_inplace: expected $(sizeof(array)) bytes, got $count"
+            buf = MPI.Buffer(array)
+            req = MPI.Imrecv!(buf, msg)
             __wait_for_request(req, comm, my_rank, their_rank, tag, "recv_yield", "recv")
-            return MPI.deserialize(buf)
+            break
         end
         warn_period = mpi_deadlock_detect(detect, time_start, warn_period, timeout_period, my_rank, tag, "recv", their_rank)
         yield()
     end
+    return array
 end
+
 function recv_yield_inplace(_value::InplaceInfo, comm, my_rank, their_rank, tag)
+    T = _value.type
+    @assert T <: Array && isbitstype(eltype(T)) "recv_yield_inplace only supports inplace MPI transfers of bitstype dense arrays"
+    array = Array{eltype(T)}(undef, _value.shape)
+    return recv_yield_inplace!(array, comm, my_rank, their_rank, tag)
+end
+
+function recv_yield_inplace(_value::InplaceSparseInfo, comm, my_rank, their_rank, tag)
+    T = _value.type
+    @assert T <: SparseMatrixCSC "recv_yield_inplace only supports inplace MPI transfers of SparseMatrixCSC"
+
+    colptr = recv_yield_inplace!(Vector{Int64}(undef, _value.colptr), comm, my_rank, their_rank, tag)
+    rowval = recv_yield_inplace!(Vector{Int64}(undef, _value.rowval), comm, my_rank, their_rank, tag)
+    nzval = recv_yield_inplace!(Vector{eltype(T)}(undef, _value.nzval), comm, my_rank, their_rank, tag)
+
+    SparseArray = SparseMatrixCSC{eltype(T), Int64}(_value.m, _value.n, colptr, rowval, nzval)
+    return SparseArray
+    
+end
+
+function recv_yield_serialized(comm, my_rank, their_rank, tag)
     time_start = time_ns()
     detect = DEADLOCK_DETECT[]
     warn_period = round(UInt64, DEADLOCK_WARN_PERIOD[] * 1e9)
     timeout_period = round(UInt64, DEADLOCK_TIMEOUT_PERIOD[] * 1e9)
 
-    T = _value.type
-    @assert T <: Array && isbitstype(eltype(T)) "recv_yield_inplace only supports inplace MPI transfers of bitstype dense arrays"
-    array = Array{eltype(T)}(undef, _value.shape)
-
     while true
         (got, msg, stat) = MPI.Improbe(their_rank, tag, comm, MPI.Status)
         if got
@@ -550,17 +578,14 @@ function recv_yield_inplace(_value::InplaceInfo, comm, my_rank, their_rank, tag)
                 error("recv_yield failed with error $(MPI.Get_error(stat))")
             end
             count = MPI.Get_count(stat, UInt8)
-            @assert count == sizeof(array) "recv_yield_inplace: expected $(sizeof(array)) bytes, got $count"
-            buf = MPI.Buffer(array)
-            req = MPI.Imrecv!(buf, msg)
+            buf = Array{UInt8}(undef, count)
+            req = MPI.Imrecv!(MPI.Buffer(buf), msg)
             __wait_for_request(req, comm, my_rank, their_rank, tag, "recv_yield", "recv")
-            break
+            return MPI.deserialize(buf)
         end
         warn_period = mpi_deadlock_detect(detect, time_start, warn_period, timeout_period, my_rank, tag, "recv", their_rank)
         yield()
     end
-
-    return array
 end
 
 const SEEN_TAGS = Dict{Int32, Type}()
@@ -584,19 +609,27 @@ function _send_yield(value, comm, dest, tag; check_seen::Bool=true, inplace::Boo
         send_yield_serialized(value, comm, rank, dest, tag)
     end
 end
+
 function send_yield_inplace(value, comm, my_rank, their_rank, tag)
     req = MPI.Isend(value, comm; dest=their_rank, tag)
     __wait_for_request(req, comm, my_rank, their_rank, tag, "send_yield", "send")
 end
+
 function send_yield_serialized(value, comm, my_rank, their_rank, tag)
     if value isa Array && isbitstype(eltype(value))
         send_yield_serialized(InplaceInfo(typeof(value), size(value)), comm, my_rank, their_rank, tag)
         send_yield_inplace(value, comm, my_rank, their_rank, tag)
+    elseif value isa SparseMatrixCSC
+        send_yield_serialized(InplaceSparseInfo(typeof(value), value.m, value.n, length(value.colptr), length(value.rowval), length(value.nzval)), comm, my_rank, their_rank, tag)
+        send_yield!(value.colptr, comm, their_rank, tag; check_seen=false)
+        send_yield!(value.rowval, comm, their_rank, tag; check_seen=false)
+        send_yield!(value.nzval,  comm, their_rank, tag; check_seen=false)
     else
         req = MPI.isend(value, comm; dest=their_rank, tag)
         __wait_for_request(req, comm, my_rank, their_rank, tag, "send_yield", "send")
     end
 end
+
 function __wait_for_request(req, comm, my_rank, their_rank, tag, fn::String, kind::String)
     time_start = time_ns()
     detect = DEADLOCK_DETECT[]
@@ -623,6 +656,7 @@ function bcast_send_yield(value, comm, root, tag)
         send_yield(value, comm, other_rank, tag)
     end
 end
+
 function mpi_deadlock_detect(detect, time_start, warn_period, timeout_period, rank, tag, kind, srcdest)
     time_elapsed = (time_ns() - time_start)
     if detect && time_elapsed > warn_period
diff --git a/test/mpi.jl b/test/mpi.jl
index a428e4256..5e15cad65 100644
--- a/test/mpi.jl
+++ b/test/mpi.jl
@@ -1,33 +1,63 @@
 using Dagger
 using MPI
+using SparseArrays
 
 Dagger.accelerate!(:mpi)
-#=
+
+
 if MPI.Comm_rank(MPI.COMM_WORLD) == 0
     B = rand(4, 4)
-    Dagger.send_yield(B, MPI.COMM_WORLD, 1, 0)
-    println("rank $(MPI.Comm_rank(MPI.COMM_WORLD)) B: $B")
+    Dagger.send_yield!(B, MPI.COMM_WORLD, 1, 0)
+    println("rank $(MPI.Comm_rank(MPI.COMM_WORLD)) send_yield! Array: B: $B")
 else
     B = zeros(4, 4)
     Dagger.recv_yield!(B, MPI.COMM_WORLD, 0, 0) 
-    println("rank $(MPI.Comm_rank(MPI.COMM_WORLD)) B: $B")
+    println("rank $(MPI.Comm_rank(MPI.COMM_WORLD)) recv_yield! Array: B: $B")
 end
 
+MPI.Barrier(MPI.COMM_WORLD)
+
 if MPI.Comm_rank(MPI.COMM_WORLD) == 0
     B = "hello"
-    Dagger.send_yield(B, MPI.COMM_WORLD, 1, 1)
-    println("rank $(MPI.Comm_rank(MPI.COMM_WORLD)) B: $B")
+    Dagger.send_yield!(B, MPI.COMM_WORLD, 1, 2)
+    println("rank $(MPI.Comm_rank(MPI.COMM_WORLD)) send_yield String: B: $B")
 else
     B = "Goodbye"
-    B1, _ = Dagger.recv_yield!(B, MPI.COMM_WORLD, 0, 1) 
-    println("rank $(MPI.Comm_rank(MPI.COMM_WORLD)) B1: $B1")
+    B1, _ = Dagger.recv_yield!(B, MPI.COMM_WORLD, 0, 2) 
+    println("rank $(MPI.Comm_rank(MPI.COMM_WORLD)) recv_yield! String: B1: $B1")
 end
-=#
-A = rand(Blocks(2,2), 4, 4)
-Ac = collect(A)
-println(Ac)
 
+MPI.Barrier(MPI.COMM_WORLD)
+
+if MPI.Comm_rank(MPI.COMM_WORLD) == 0
+    B = sprand(4,4,0.2)
+    Dagger.send_yield(B, MPI.COMM_WORLD, 1, 1)
+    println("rank $(MPI.Comm_rank(MPI.COMM_WORLD)) send_yield (half in-place) Sparse: B: $B")
+else
+    B1 = Dagger.recv_yield(MPI.COMM_WORLD, 0, 1)
+    println("rank $(MPI.Comm_rank(MPI.COMM_WORLD)) recv_yield (half in-place) Sparse: B1: $B1")
+end
 
-#move!(identity, Ac[1].space , Ac[2].space, Ac[1], Ac[2])
+MPI.Barrier(MPI.COMM_WORLD)
 
+if MPI.Comm_rank(MPI.COMM_WORLD) == 0
+    B = rand(4, 4)
+    Dagger.send_yield(B, MPI.COMM_WORLD, 1, 0)
+    println("rank $(MPI.Comm_rank(MPI.COMM_WORLD)) send_yield (half in-place) Dense: B: $B")
+else
+    
+    B = Dagger.recv_yield( MPI.COMM_WORLD, 0, 0) 
+    println("rank $(MPI.Comm_rank(MPI.COMM_WORLD)) recv_yield (half in-place) Dense: B: $B")
+end
+
+MPI.Barrier(MPI.COMM_WORLD)
+
+
+
+#=
+A = rand(Blocks(2,2), 4, 4)
+Ac = collect(A)
+println(Ac)
+=#
 
+#move!(identity, Ac[1].space , Ac[2].space, Ac[1], Ac[2])
\ No newline at end of file

From d2e5cce8853ac7f283b12cd2ec35cb6f7e062de6 Mon Sep 17 00:00:00 2001
From: yanzin00 <ylsg0303@gmail.com>
Date: Mon, 30 Jun 2025 09:59:26 -0300
Subject: [PATCH 2/8] Add isbits check for Sparse eltype

---
 src/mpi.jl | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/src/mpi.jl b/src/mpi.jl
index 23f134d8b..61363c6db 100644
--- a/src/mpi.jl
+++ b/src/mpi.jl
@@ -619,7 +619,7 @@ function send_yield_serialized(value, comm, my_rank, their_rank, tag)
     if value isa Array && isbitstype(eltype(value))
         send_yield_serialized(InplaceInfo(typeof(value), size(value)), comm, my_rank, their_rank, tag)
         send_yield_inplace(value, comm, my_rank, their_rank, tag)
-    elseif value isa SparseMatrixCSC
+    elseif value isa SparseMatrixCSC && isbitstype(eltype(value))
         send_yield_serialized(InplaceSparseInfo(typeof(value), value.m, value.n, length(value.colptr), length(value.rowval), length(value.nzval)), comm, my_rank, their_rank, tag)
         send_yield!(value.colptr, comm, their_rank, tag; check_seen=false)
         send_yield!(value.rowval, comm, their_rank, tag; check_seen=false)

From 1fa9760a82c1391d9413fe01f49acc13d891f645 Mon Sep 17 00:00:00 2001
From: yanzin00 <ylsg0303@gmail.com>
Date: Wed, 30 Jul 2025 19:22:58 -0300
Subject: [PATCH 3/8] Optimize MPI communication with combined broadcasts and
 early returns

---
 src/mpi.jl  | 90 +++++++++++++++++++++++++----------------------------
 test/mpi.jl | 81 +++++++++++++++++++++++++----------------------
 2 files changed, 86 insertions(+), 85 deletions(-)

diff --git a/src/mpi.jl b/src/mpi.jl
index 61363c6db..efad924a3 100644
--- a/src/mpi.jl
+++ b/src/mpi.jl
@@ -58,6 +58,7 @@ function aliasing(accel::MPIAcceleration, x::Chunk, T)
     @assert accel.comm == handle.comm "MPIAcceleration comm mismatch"
     tag = to_tag(hash(handle.id, hash(:aliasing)))
     rank = MPI.Comm_rank(accel.comm)
+
     if handle.rank == rank
         ainfo = aliasing(x, T)
         #Core.print("[$rank] aliasing: $ainfo, sending\n")
@@ -425,16 +426,11 @@ function supports_inplace_mpi(value)
     end
 end
 function recv_yield!(buffer, comm, src, tag)
+    rank = MPI.Comm_rank(comm)
     #println("buffer recv: $buffer, type of buffer: $(typeof(buffer)), is in place? $(supports_inplace_mpi(buffer))")
     if !supports_inplace_mpi(buffer)
         return recv_yield(comm, src, tag), false
     end
-    
-    time_start = time_ns()
-    detect = DEADLOCK_DETECT[]
-    warn_period = round(UInt64, DEADLOCK_WARN_PERIOD[] * 1e9)
-    timeout_period = round(UInt64, DEADLOCK_TIMEOUT_PERIOD[] * 1e9)
-    rank = MPI.Comm_rank(comm)
     #Core.println("[rank $(MPI.Comm_rank(comm))][tag $tag] Starting recv! from [$src]")
 
     # Ensure no other receiver is waiting
@@ -453,36 +449,16 @@ function recv_yield!(buffer, comm, src, tag)
         wait(other_event)
         @goto retry
     end
-    while true
-        (got, msg, stat) = MPI.Improbe(src, tag, comm, MPI.Status)
-        if got
-            if MPI.Get_error(stat) != MPI.SUCCESS
-                error("recv_yield (Improbe) failed with error $(MPI.Get_error(stat))")
-            end
-            
-            req = MPI.Imrecv!(MPI.Buffer(buffer), msg)
-            while true
-                finish, stat = MPI.Test(req, MPI.Status)
-                if finish
-                    if MPI.Get_error(stat) != MPI.SUCCESS
-                        error("recv_yield (Test) failed with error $(MPI.Get_error(stat))")
-                    end
-                    
-                    #Core.println("[rank $(MPI.Comm_rank(comm))][tag $tag] Received value")
-                    lock(RECV_WAITING) do waiting
-                        delete!(waiting, (comm, src, tag))
-                        notify(our_event)
-                    end
-                    #Core.println("[rank $(MPI.Comm_rank(comm))][tag $tag] Released lock")
-                    return buffer, true
-                end
-                warn_period = mpi_deadlock_detect(detect, time_start, warn_period, timeout_period, rank, tag, "recv", src)
-                yield()
-            end
-        end
-        warn_period = mpi_deadlock_detect(detect, time_start, warn_period, timeout_period, rank, tag, "recv", src)
-        yield()
+
+    buffer = recv_yield_inplace!(buffer, comm, rank, src, tag)
+
+    lock(RECV_WAITING) do waiting
+        delete!(waiting, (comm, src, tag))
+        notify(our_event)
     end
+
+    return buffer, true
+
 end
 
 function recv_yield(comm, src, tag)
@@ -513,6 +489,7 @@ function recv_yield(comm, src, tag)
     if value isa InplaceInfo || value isa InplaceSparseInfo
         value = recv_yield_inplace(value, comm, rank, src, tag)
     end
+
     lock(RECV_WAITING) do waiting
         delete!(waiting, (comm, src, tag))
         notify(our_event)
@@ -537,12 +514,11 @@ function recv_yield_inplace!(array, comm, my_rank, their_rank, tag)
             buf = MPI.Buffer(array)
             req = MPI.Imrecv!(buf, msg)
             __wait_for_request(req, comm, my_rank, their_rank, tag, "recv_yield", "recv")
-            break
+            return array
         end
         warn_period = mpi_deadlock_detect(detect, time_start, warn_period, timeout_period, my_rank, tag, "recv", their_rank)
         yield()
     end
-    return array
 end
 
 function recv_yield_inplace(_value::InplaceInfo, comm, my_rank, their_rank, tag)
@@ -560,8 +536,7 @@ function recv_yield_inplace(_value::InplaceSparseInfo, comm, my_rank, their_rank
     rowval = recv_yield_inplace!(Vector{Int64}(undef, _value.rowval), comm, my_rank, their_rank, tag)
     nzval = recv_yield_inplace!(Vector{eltype(T)}(undef, _value.nzval), comm, my_rank, their_rank, tag)
 
-    SparseArray = SparseMatrixCSC{eltype(T), Int64}(_value.m, _value.n, colptr, rowval, nzval)
-    return SparseArray
+    return SparseMatrixCSC{eltype(T), Int64}(_value.m, _value.n, colptr, rowval, nzval)
     
 end
 
@@ -621,9 +596,9 @@ function send_yield_serialized(value, comm, my_rank, their_rank, tag)
         send_yield_inplace(value, comm, my_rank, their_rank, tag)
     elseif value isa SparseMatrixCSC && isbitstype(eltype(value))
         send_yield_serialized(InplaceSparseInfo(typeof(value), value.m, value.n, length(value.colptr), length(value.rowval), length(value.nzval)), comm, my_rank, their_rank, tag)
-        send_yield!(value.colptr, comm, their_rank, tag; check_seen=false)
-        send_yield!(value.rowval, comm, their_rank, tag; check_seen=false)
-        send_yield!(value.nzval,  comm, their_rank, tag; check_seen=false)
+        send_yield_inplace(value.colptr, comm, my_rank, their_rank, tag)
+        send_yield_inplace(value.rowval, comm, my_rank, their_rank, tag)
+        send_yield_inplace(value.nzval,  comm, my_rank, their_rank, tag)
     else
         req = MPI.isend(value, comm; dest=their_rank, tag)
         __wait_for_request(req, comm, my_rank, their_rank, tag, "send_yield", "send")
@@ -657,6 +632,25 @@ function bcast_send_yield(value, comm, root, tag)
     end
 end
 
+#= Maybe can be worth it to implement this
+function bcast_send_yield!(value, comm, root, tag)
+    sz = MPI.Comm_size(comm)
+    rank = MPI.Comm_rank(comm)
+
+    for other_rank in 0:(sz-1)
+        rank == other_rank && continue
+        #println("[rank $rank] Sending to rank $other_rank")
+        send_yield!(value, comm, other_rank, tag)
+    end
+end
+
+function bcast_recv_yield!(value, comm, root, tag)
+    sz = MPI.Comm_size(comm)
+    rank = MPI.Comm_rank(comm)
+    #println("[rank $rank] receive from rank $root")
+    recv_yield!(value, comm, root, tag)
+end
+=#
 function mpi_deadlock_detect(detect, time_start, warn_period, timeout_period, rank, tag, kind, srcdest)
     time_elapsed = (time_ns() - time_start)
     if detect && time_elapsed > warn_period
@@ -761,7 +755,7 @@ end
 #FIXME:try to think of a better move! scheme
 function execute!(proc::MPIProcessor, world::UInt64, f, args...; kwargs...)
     local_rank = MPI.Comm_rank(proc.comm)
-    tag_T = to_tag(hash(sch_handle().thunk_id.id, hash(:execute!, UInt(0))))
+    #tag_T = to_tag(hash(sch_handle().thunk_id.id, hash(:execute!, UInt(0))))
     tag_space = to_tag(hash(sch_handle().thunk_id.id, hash(:execute!, UInt(1))))
     islocal = local_rank == proc.rank
     inplace_move = f === move!
@@ -777,14 +771,14 @@ function execute!(proc::MPIProcessor, world::UInt64, f, args...; kwargs...)
         # Handle communication ourselves
         if islocal
             T = typeof(result)
-            bcast_send_yield(T, proc.comm, proc.rank, tag_T)
             space = memory_space(result, proc)::MPIMemorySpace
-            bcast_send_yield(space.innerSpace, proc.comm, proc.rank, tag_space)
-            #Core.print("[$local_rank] execute!: sending $T assigned to $space\n")
+            T_space = (T, space)
+            bcast_send_yield(T_space, proc.comm, proc.rank, tag_space)
             return tochunk(result, proc, space)
         else
-            T = recv_yield(proc.comm, proc.rank, tag_T)
-            innerSpace = recv_yield(proc.comm, proc.rank, tag_space)
+            #T = recv_yield(proc.comm, proc.rank, tag_T)
+            #innerSpace = recv_yield(proc.comm, proc.rank, tag_space)
+            T, innerSpace = recv_yield(proc.comm, proc.rank, tag_space)
             space = MPIMemorySpace(innerSpace, proc.comm, proc.rank)
             #= FIXME: If we get a bad result (something non-concrete, or Union{}),
             # we should bcast the actual type
diff --git a/test/mpi.jl b/test/mpi.jl
index 5e15cad65..a84ffdce1 100644
--- a/test/mpi.jl
+++ b/test/mpi.jl
@@ -1,56 +1,61 @@
 using Dagger
 using MPI
+using LinearAlgebra
 using SparseArrays
 
 Dagger.accelerate!(:mpi)
 
+comm = MPI.COMM_WORLD
+rank = MPI.Comm_rank(comm)
+size = MPI.Comm_size(comm)
 
-if MPI.Comm_rank(MPI.COMM_WORLD) == 0
-    B = rand(4, 4)
-    Dagger.send_yield!(B, MPI.COMM_WORLD, 1, 0)
-    println("rank $(MPI.Comm_rank(MPI.COMM_WORLD)) send_yield! Array: B: $B")
+# Use a large array (adjust size as needed for your RAM)
+N = 100
+tag = 123
+
+if rank == 0
+    arr = sprand(N, N, 0.6)
 else
-    B = zeros(4, 4)
-    Dagger.recv_yield!(B, MPI.COMM_WORLD, 0, 0) 
-    println("rank $(MPI.Comm_rank(MPI.COMM_WORLD)) recv_yield! Array: B: $B")
+    arr = spzeros(N, N)
 end
 
-MPI.Barrier(MPI.COMM_WORLD)
-
-if MPI.Comm_rank(MPI.COMM_WORLD) == 0
-    B = "hello"
-    Dagger.send_yield!(B, MPI.COMM_WORLD, 1, 2)
-    println("rank $(MPI.Comm_rank(MPI.COMM_WORLD)) send_yield String: B: $B")
-else
-    B = "Goodbye"
-    B1, _ = Dagger.recv_yield!(B, MPI.COMM_WORLD, 0, 2) 
-    println("rank $(MPI.Comm_rank(MPI.COMM_WORLD)) recv_yield! String: B1: $B1")
+# --- Out-of-place broadcast ---
+function bcast_outofplace()
+    MPI.Barrier(comm)
+    if rank == 0
+        Dagger.bcast_send_yield(arr, comm, 0, tag+1)
+    else
+        Dagger.bcast_recv_yield(comm, 0, tag+1)
+    end
+    MPI.Barrier(comm)
 end
+# --- In-place broadcast ---
 
-MPI.Barrier(MPI.COMM_WORLD)
+function bcast_inplace()
+    MPI.Barrier(comm)
+    if rank == 0
+        Dagger.bcast_send_yield!(arr, comm, 0, tag)
+    else
+        Dagger.bcast_recv_yield!(arr, comm, 0, tag)
+    end
+    MPI.Barrier(comm)
+end
 
-if MPI.Comm_rank(MPI.COMM_WORLD) == 0
-    B = sprand(4,4,0.2)
-    Dagger.send_yield(B, MPI.COMM_WORLD, 1, 1)
-    println("rank $(MPI.Comm_rank(MPI.COMM_WORLD)) send_yield (half in-place) Sparse: B: $B")
-else
-    B1 = Dagger.recv_yield(MPI.COMM_WORLD, 0, 1)
-    println("rank $(MPI.Comm_rank(MPI.COMM_WORLD)) recv_yield (half in-place) Sparse: B1: $B1")
+function bcast_inplace_metadata()
+    MPI.Barrier(comm)
+    if rank == 0
+        Dagger.bcast_send_yield_metadata(arr, comm, 0)
+    end
+    MPI.Barrier(comm)
 end
 
-MPI.Barrier(MPI.COMM_WORLD)
 
-if MPI.Comm_rank(MPI.COMM_WORLD) == 0
-    B = rand(4, 4)
-    Dagger.send_yield(B, MPI.COMM_WORLD, 1, 0)
-    println("rank $(MPI.Comm_rank(MPI.COMM_WORLD)) send_yield (half in-place) Dense: B: $B")
-else
-    
-    B = Dagger.recv_yield( MPI.COMM_WORLD, 0, 0) 
-    println("rank $(MPI.Comm_rank(MPI.COMM_WORLD)) recv_yield (half in-place) Dense: B: $B")
-end
+inplace = @time bcast_inplace()
+
+
+MPI.Barrier(comm)
+MPI.Finalize()
 
-MPI.Barrier(MPI.COMM_WORLD)
 
 
 
@@ -58,6 +63,8 @@ MPI.Barrier(MPI.COMM_WORLD)
 A = rand(Blocks(2,2), 4, 4)
 Ac = collect(A)
 println(Ac)
+
+
+move!(identity, Ac[1].space , Ac[2].space, Ac[1], Ac[2])
 =#
 
-#move!(identity, Ac[1].space , Ac[2].space, Ac[1], Ac[2])
\ No newline at end of file

From e238989a4d2aefa08d2a5b6892c3a4d39610d817 Mon Sep 17 00:00:00 2001
From: yanzin00 <ylsg0303@gmail.com>
Date: Sun, 10 Aug 2025 13:46:03 -0400
Subject: [PATCH 4/8] fix: MPIRef Datadeps

---
 src/datadeps.jl | 10 ++++++----
 1 file changed, 6 insertions(+), 4 deletions(-)

diff --git a/src/datadeps.jl b/src/datadeps.jl
index 6261bfd7d..357e674c4 100644
--- a/src/datadeps.jl
+++ b/src/datadeps.jl
@@ -631,10 +631,12 @@ function generate_slot!(state::DataDepsState, dest_space, data, task)
     dest_space_args = get!(IdDict{Any,Any}, state.remote_args, dest_space)
     w = only(unique(map(get_parent, collect(processors(dest_space)))))
     if orig_space == dest_space
-        data_chunk = tochunk(data, from_proc, dest_space)
-        dest_space_args[data] = data_chunk
-        @assert memory_space(data_chunk) == orig_space
-        @assert processor(data_chunk) in processors(dest_space) || data isa Chunk && (processor(data) isa Dagger.OSProc || processor(data) isa Dagger.MPIOSProc)
+        with(MPI_UID=>task.uid) do
+            data_chunk = tochunk(data, from_proc, dest_space)
+            dest_space_args[data] = data_chunk
+            @assert memory_space(data_chunk) == orig_space
+            @assert processor(data_chunk) in processors(dest_space) || data isa Chunk && (processor(data) isa Dagger.OSProc || processor(data) isa Dagger.MPIOSProc)
+        end
     else
         ctx = Sch.eager_context()
         id = rand(Int)

From 98116ad19c613e9a73a2a192b6fcafe9ea3883c7 Mon Sep 17 00:00:00 2001
From: yanzin00 <ylsg0303@gmail.com>
Date: Tue, 12 Aug 2025 12:42:09 -0400
Subject: [PATCH 5/8] MPIDagger Benchmarks

---
 Demo/mpi_dagger_bench.jl                      | 506 ++++++++++++++++++
 benchmarks/DaggerMPI_Strong_scale.jl          |  72 +++
 benchmarks/DaggerMPI_Weak_scale.jl            |  64 +++
 benchmarks/DaggerTCP_Strong_scale.jl          |  93 ++++
 benchmarks/DaggerTCP_Weak_scale.jl            |  76 +++
 .../results/DaggerMPI_Weak_scale_results.csv  |   5 +
 benchmarks/standalone_cholesky_test_v2.jl     | 373 +++++++++++++
 benchmarks/weak_scale.sh                      |  23 +
 src/mpi.jl                                    |   4 +-
 9 files changed, 1214 insertions(+), 2 deletions(-)
 create mode 100755 Demo/mpi_dagger_bench.jl
 create mode 100644 benchmarks/DaggerMPI_Strong_scale.jl
 create mode 100644 benchmarks/DaggerMPI_Weak_scale.jl
 create mode 100644 benchmarks/DaggerTCP_Strong_scale.jl
 create mode 100644 benchmarks/DaggerTCP_Weak_scale.jl
 create mode 100644 benchmarks/results/DaggerMPI_Weak_scale_results.csv
 create mode 100644 benchmarks/standalone_cholesky_test_v2.jl
 create mode 100644 benchmarks/weak_scale.sh

diff --git a/Demo/mpi_dagger_bench.jl b/Demo/mpi_dagger_bench.jl
new file mode 100755
index 000000000..092b1fc24
--- /dev/null
+++ b/Demo/mpi_dagger_bench.jl
@@ -0,0 +1,506 @@
+#!/usr/bin/env julia
+
+# MPI Dagger.jl Cholesky Benchmark - FIXED VERSION
+# Run with: mpirun -np 4 julia --project=. benchmarks/mpi_dagger_bench.jl
+
+using Distributed
+using Dagger
+using MPI
+using LinearAlgebra
+using Random
+using Statistics
+using Printf
+using Dates
+using SparseArrays
+import TaskLocalValues: TaskLocalValue
+import Dagger: Acceleration, Chunk, Processor, Sch, AbstractScope, TaintScope, MemorySpace, @dagdebug
+import MemPool: DRef
+import MemPool
+
+# ================================================================================
+# MPI INITIALIZATION
+# ================================================================================
+
+# Initialize MPI properly BEFORE including mpi.jl
+if !MPI.Initialized()
+    MPI.Init(; threadlevel=:multiple)
+end
+
+comm = MPI.COMM_WORLD
+rank = MPI.Comm_rank(comm)
+comm_size = MPI.Comm_size(comm)
+
+# ================================================================================
+# TASK LOCAL VALUES FOR MPI
+# ================================================================================
+
+# Note: MPI_TID and MPI_UID are defined in Dagger's datadeps.jl as ScopedValue
+
+# ================================================================================
+# INCLUDE MPI.JL FROM DAGGER SOURCE
+# ================================================================================
+
+# Include the MPI module from Dagger source
+mpi_path = joinpath(@__DIR__, "..", "src", "mpi.jl")
+if !isfile(mpi_path)
+    if rank == 0
+        error("Cannot find mpi.jl at $mpi_path. Make sure you're running from Dagger.jl/benchmarks/")
+    end
+    MPI.Finalize()
+    exit(1)
+end
+
+# Load the MPI module
+include(mpi_path)
+
+# ================================================================================
+# INITIALIZE DAGGER WITH MPI ACCELERATION
+# ================================================================================
+
+# Create and initialize MPI acceleration PROPERLY
+accel = Dagger.MPIAcceleration(comm)
+Dagger.initialize_acceleration!(accel)
+
+# ================================================================================
+# CONFIGURATION CONSTANTS
+# ================================================================================
+
+const DATA_TYPES = [Float32, Float64]
+const MATRIX_SIZES = [256, 512, 1024]  # Reduced for testing
+const NUM_TRIALS = 2
+const NUM_WARMUP = 1
+
+# ================================================================================
+# UTILITY FUNCTIONS
+# ================================================================================
+
+# Generate positive definite matrix
+function generate_posdef_matrix(T::Type, n::Int)
+    try
+        Random.seed!(42)  # Same seed for all ranks for consistency
+        A = randn(T, n, n)
+        A = A * A'  # Make symmetric positive semi-definite
+        A[diagind(A)] .+= T(n)  # Make positive definite
+        return A
+    catch e
+        error("Failed to generate positive definite matrix: $e")
+    end
+end
+
+# ================================================================================
+# SIMPLE MPI CHOLESKY (WITHOUT DAGGER)
+# ================================================================================
+
+function simple_mpi_cholesky!(A::Matrix{T}) where T
+    n = size(A, 1)
+    
+    # Simple column-cyclic distribution
+    for j = 1:n
+        # Owner of column j
+        owner = (j - 1) % comm_size
+        
+        if owner == rank
+            # Update and factorize column j
+            if j > 1
+                # Update column j based on previous columns
+                for k = 1:(j-1)
+                    A[j:n, j] -= A[j:n, k] * A[j, k]
+                end
+            end
+            
+            # Compute L[j,j] and scale column
+            A[j, j] = sqrt(A[j, j])
+            if j < n
+                A[(j+1):n, j] /= A[j, j]
+            end
+        end
+        
+        # Broadcast column j from owner to all ranks
+        col_data = owner == rank ? A[j:n, j] : zeros(T, n - j + 1)
+        MPI.Bcast!(col_data, owner, comm)
+        
+        if owner != rank
+            A[j:n, j] = col_data
+        end
+        
+        MPI.Barrier(comm)
+    end
+    
+    # Make lower triangular
+    for i = 1:n, j = (i+1):n
+        A[i, j] = zero(T)
+    end
+    
+    return A
+end
+
+# ================================================================================
+# DAGGER DISTRIBUTED CHOLESKY
+# ================================================================================
+
+function dagger_distributed_cholesky(A::Matrix{T}) where T
+    n = size(A, 1)
+    
+    # Create a simple block distribution
+    nblocks = min(comm_size, 4)  # Limit number of blocks
+    block_size = cld(n, nblocks)
+    
+    # Create Dagger context with MPI processors
+    ctx = Dagger.Context()
+    for i in 0:(comm_size-1)
+        proc = Dagger.MPIOSProc(comm, i)
+        push!(ctx.procs, proc)
+    end
+    
+    # Set up proper task IDs for MPI operations
+    task_id = Dagger.eager_next_id()
+    Dagger.with(Dagger.MPI_TID => task_id) do
+    
+    # Create distributed array using Dagger's Blocks
+    dist = Dagger.Blocks(block_size, block_size)
+    
+    # Distribute the matrix (simplified version)
+    # Each rank gets assigned chunks in round-robin fashion
+    chunks = Matrix{Any}(undef, nblocks, nblocks)
+    
+    chunk_id = 0
+    for bi = 1:nblocks, bj = 1:nblocks
+        row_range = ((bi-1)*block_size + 1):min(bi*block_size, n)
+        col_range = ((bj-1)*block_size + 1):min(bj*block_size, n)
+        
+        # Assign chunk to a rank
+        assigned_rank = chunk_id % comm_size
+        chunk_id += 1
+        
+        if assigned_rank == rank
+            # This rank owns this chunk
+            block_data = A[row_range, col_range]
+            proc = Dagger.MPIOSProc(comm, rank)
+            space = Dagger.MPIMemorySpace(Dagger.CPURAMMemorySpace(myid()), comm, rank)
+            chunks[bi, bj] = Dagger.tochunk(block_data, proc, space)
+        else
+            # Create reference to remote chunk
+            proc = Dagger.MPIOSProc(comm, assigned_rank)
+            space = Dagger.MPIMemorySpace(Dagger.CPURAMMemorySpace(myid()), comm, assigned_rank)
+            # Create empty chunk reference
+            chunks[bi, bj] = Dagger.tochunk(nothing, proc, space; type=Matrix{T})
+        end
+    end
+    
+    MPI.Barrier(comm)
+    
+    # Perform Cholesky on the distributed array
+    # For now, just collect and compute on rank 0
+    if rank == 0
+        # Collect all chunks
+        A_collected = zeros(T, n, n)
+        chunk_id = 0
+        for bi = 1:nblocks, bj = 1:nblocks
+            row_range = ((bi-1)*block_size + 1):min(bi*block_size, n)
+            col_range = ((bj-1)*block_size + 1):min(bj*block_size, n)
+            
+            assigned_rank = chunk_id % comm_size
+            chunk_id += 1
+            
+            if assigned_rank == rank
+                # Local chunk
+                A_collected[row_range, col_range] = fetch(chunks[bi, bj])
+            else
+                # Remote chunk - receive via MPI
+                tag = Dagger.to_tag(hash(bi, hash(bj, hash(T))))
+                chunk_data = Dagger.recv_yield(comm, assigned_rank, tag)
+                A_collected[row_range, col_range] = chunk_data
+            end
+        end
+        
+        # Compute Cholesky
+        result = cholesky(A_collected)
+        return result
+    else
+        # Send chunks to rank 0
+        chunk_id = 0
+        for bi = 1:nblocks, bj = 1:nblocks
+            assigned_rank = chunk_id % comm_size
+            chunk_id += 1
+            
+            if assigned_rank == rank
+                row_range = ((bi-1)*block_size + 1):min(bi*block_size, n)
+                col_range = ((bj-1)*block_size + 1):min(bj*block_size, n)
+                
+                tag = Dagger.to_tag(hash(bi, hash(bj, hash(T))))
+                Dagger.send_yield(A[row_range, col_range], comm, 0, tag)
+            end
+        end
+        
+        return nothing
+    end
+    end  # Close the with block
+end
+
+# ================================================================================
+# BENCHMARK FUNCTIONS
+# ================================================================================
+
+function benchmark_simple_mpi(A::Matrix{T}) where T
+    # Warmup
+    for _ in 1:NUM_WARMUP
+        A_copy = copy(A)
+        simple_mpi_cholesky!(A_copy)
+    end
+    
+    # Timing runs
+    times = Float64[]
+    for _ in 1:NUM_TRIALS
+        A_copy = copy(A)
+        t = @elapsed simple_mpi_cholesky!(A_copy)
+        push!(times, t)
+    end
+    
+    return mean(times), std(times)
+end
+
+function benchmark_dagger(A::Matrix{T}) where T
+    # Warmup
+    for _ in 1:NUM_WARMUP
+        dagger_distributed_cholesky(copy(A))
+    end
+    
+    # Timing runs
+    times = Float64[]
+    for _ in 1:NUM_TRIALS
+        t = @elapsed dagger_distributed_cholesky(copy(A))
+        push!(times, t)
+    end
+    
+    return mean(times), std(times)
+end
+
+# ================================================================================
+# MAIN BENCHMARK FUNCTION
+# ================================================================================
+
+function main()
+    all_results = []
+    
+    # Ensure proper cleanup on exit
+    atexit() do
+        if MPI.Initialized() && !MPI.Finalized()
+            MPI.Finalize()
+        end
+    end
+    
+    if rank == 0
+        println("=" ^ 80)
+        println("MPI Dagger.jl Cholesky Benchmark - FIXED VERSION")
+        println("=" ^ 80)
+        println("Timestamp: $(Dates.now())")
+        println("MPI Ranks: $(comm_size)")
+        println("Julia Version: $(VERSION)")
+        println("Matrix Sizes: $(MATRIX_SIZES)")
+        println("Data Types: $(DATA_TYPES)")
+        println("-" ^ 80)
+    end
+    
+    for T in DATA_TYPES
+        if rank == 0
+            println("\n📐 Testing data type: $T")
+            println("-" ^ 40)
+        end
+        
+        for N in MATRIX_SIZES
+            # Check memory
+            try
+                mem_required_gb = (N * N * sizeof(T) * 4) / (1024^3)
+                total_mem_gb = Sys.total_memory() / (1024^3)
+                
+                if mem_required_gb > total_mem_gb * 0.5
+                    if rank == 0
+                        println("  ⏭️  Skipping N=$N (needs $(round(mem_required_gb, digits=1)) GB)")
+                    end
+                    continue
+                end
+            catch e
+                if rank == 0
+                    println("  ⚠️  Memory check failed, proceeding anyway: $e")
+                end
+            end
+            
+            if rank == 0
+                print("  Size $(N)×$(N): ")
+                flush(stdout)
+            end
+            
+            try
+                # Generate test matrix (same on all ranks)
+                A = generate_posdef_matrix(T, N)
+                
+                # Benchmark standard sequential (rank 0 only)
+                std_time = 0.0
+                if rank == 0
+                    std_time = @elapsed cholesky(copy(A))
+                end
+                std_time = MPI.bcast(std_time, 0, comm)
+                
+                # Benchmark simple MPI version
+                mpi_mean, mpi_std = benchmark_simple_mpi(A)
+                
+                # Benchmark Dagger version
+                dagger_mean = 0.0
+                dagger_std = 0.0
+                try
+                    dagger_mean, dagger_std = benchmark_dagger(A)
+                catch e
+                    if rank == 0
+                        println("\n      Dagger failed: $(sprint(showerror, e))")
+                    end
+                    dagger_mean = NaN
+                    dagger_std = NaN
+                end
+                
+                # Calculate metrics
+                gflops_std = (N^3 / 3) / (std_time * 1e9)
+                gflops_mpi = (N^3 / 3) / (mpi_mean * 1e9)
+                gflops_dagger = isnan(dagger_mean) ? NaN : (N^3 / 3) / (dagger_mean * 1e9)
+                speedup_mpi = std_time / mpi_mean
+                speedup_dagger = isnan(dagger_mean) ? NaN : std_time / dagger_mean
+                
+                # Store results
+                result = (
+                    rank = rank,
+                    dtype = T,
+                    size = N,
+                    std_time = std_time,
+                    mpi_time = mpi_mean,
+                    mpi_std = mpi_std,
+                    dagger_time = dagger_mean,
+                    dagger_std = dagger_std,
+                    gflops_std = gflops_std,
+                    gflops_mpi = gflops_mpi,
+                    gflops_dagger = gflops_dagger,
+                    speedup_mpi = speedup_mpi,
+                    speedup_dagger = speedup_dagger
+                )
+                push!(all_results, result)
+                
+                if rank == 0
+                    println("✓")
+                    @printf("      Standard: %.4fs (%.2f GFLOPS)\n", std_time, gflops_std)
+                    @printf("      MPI:      %.4fs (%.2f GFLOPS, %.2fx speedup)\n", 
+                            mpi_mean, gflops_mpi, speedup_mpi)
+                    if !isnan(dagger_mean)
+                        @printf("      Dagger:   %.4fs (%.2f GFLOPS, %.2fx speedup)\n",
+                                dagger_mean, gflops_dagger, speedup_dagger)
+                    else
+                        println("      Dagger:   Failed")
+                    end
+                end
+                
+            catch e
+                if rank == 0
+                    println("✗ ERROR: $(sprint(showerror, e))")
+                end
+            end
+            
+            MPI.Barrier(comm)  # Synchronize between tests
+        end
+    end
+    
+    # Display summary on rank 0
+    if rank == 0 && !isempty(all_results)
+        println("\n" * "=" ^ 80)
+        println("SUMMARY RESULTS")
+        println("=" ^ 80)
+        
+        println("\n┌────────┬──────────┬────────────┬────────────┬──────────┬──────────┐")
+        println("│  Type  │   Size   │  MPI (s)   │ Dagger (s) │ MPI-GF   │ DAG-GF   │")
+        println("├────────┼──────────┼────────────┼────────────┼──────────┼──────────┤")
+        
+        for r in all_results
+            @printf("│ %-6s │  %6d  │   %.4f   │",
+                    r.dtype == Float32 ? "F32" : "F64",
+                    r.size,
+                    r.mpi_time)
+            
+            if !isnan(r.dagger_time)
+                @printf("   %.4f   │  %6.2f  │  %6.2f  │\n",
+                        r.dagger_time,
+                        r.gflops_mpi,
+                        r.gflops_dagger)
+            else
+                @printf("     N/A    │  %6.2f  │    N/A   │\n",
+                        r.gflops_mpi)
+            end
+        end
+        println("└────────┴──────────┴────────────┴────────────┴──────────┴──────────┘")
+        
+        # Performance summary
+        println("\n📊 Performance Summary:")
+        valid_results = filter(r -> !isnan(r.speedup_mpi), all_results)
+        if !isempty(valid_results)
+            best_mpi = argmax(r -> r.gflops_mpi, valid_results)
+            println("  • Best MPI: $(best_mpi.dtype) @ $(best_mpi.size)×$(best_mpi.size) → $(round(best_mpi.gflops_mpi, digits=2)) GFLOPS")
+            
+            # Average efficiency
+            avg_eff_mpi = mean(r -> r.speedup_mpi / comm_size * 100, valid_results)
+            println("  • Average MPI Parallel Efficiency: $(round(avg_eff_mpi, digits=1))%")
+        end
+        
+        println("\n📝 System Information:")
+        try
+            println("  • Hostname: $(gethostname())")
+        catch e
+            println("  • Hostname: Unknown (error: $e)")
+        end
+        println("  • CPU Threads: $(Threads.nthreads())")
+        try
+            println("  • Total Memory: $(round(Sys.total_memory() / 2^30, digits=2)) GB")
+        catch e
+            println("  • Total Memory: Unknown (error: $e)")
+        end
+    end
+    
+    return all_results
+end
+
+# ================================================================================
+# EXECUTION
+# ================================================================================
+
+# Run benchmark
+results = try
+    main()
+catch e
+    if rank == 0
+        println("\n❌ Fatal error: $e")
+        println(sprint(showerror, e))
+        for (exc, bt) in Base.catch_stack()
+            showerror(stdout, exc, bt)
+            println()
+        end
+    end
+    []
+finally
+    try
+        MPI.Barrier(comm)
+    catch e
+        if rank == 0
+            println("Warning: MPI.Barrier failed during cleanup: $e")
+        end
+    end
+end
+
+if rank == 0
+    println("\n✅ MPI Benchmark completed!")
+    println("=" ^ 80)
+end
+
+# Finalize MPI
+try
+    if MPI.Initialized() && !MPI.Finalized()
+        MPI.Finalize()
+    end
+catch e
+    if rank == 0
+        println("Warning: MPI.Finalize failed: $e")
+    end
+end
\ No newline at end of file
diff --git a/benchmarks/DaggerMPI_Strong_scale.jl b/benchmarks/DaggerMPI_Strong_scale.jl
new file mode 100644
index 000000000..12b5d328f
--- /dev/null
+++ b/benchmarks/DaggerMPI_Strong_scale.jl
@@ -0,0 +1,72 @@
+using Dagger, MPI, LinearAlgebra
+using CSV, DataFrames
+
+Dagger.accelerate!(:mpi)
+comm = MPI.COMM_WORLD
+rank = MPI.Comm_rank(comm)
+sz = MPI.Comm_size(comm)
+
+mpidagger_all_results = []
+
+# Define constants
+# You need to define the MPI workers before running the benchmark
+# Example: mpirun -n 4 julia --project benchmarks/DaggerMPI_Strong_scale.jl
+datatype = [Float32, Float64]
+datasize = [128]
+blocksize = 4
+
+for T in datatype
+    println("  Testing data type: $T")
+    
+    for N in datasize
+        A = rand(T, N, N)
+        A = A * A' 
+        A[diagind(A)] .+= size(A, 1)
+        B = copy(A)
+        @assert ishermitian(B)
+        DA = distribute(A, Blocks(blocksize,blocksize))
+        DB = distribute(B, Blocks(blocksize,blocksize))
+      
+        
+        LinearAlgebra._chol!(DA, UpperTriangular)
+        elapsed_time = @elapsed chol_DB = LinearAlgebra._chol!(DB, UpperTriangular)
+        
+
+        
+        # Verify results
+        #@show chol_DB
+
+        #@assert chol_DA isa Cholesky
+        #@assert chol_DB isa UpperTriangular
+        #@assert chol_A.L ≈ chol_DA.L
+        #@assert chol_A.U ≈ chol_DA.U
+        #@assert UpperTriangular(collect(DB)) ≈ UpperTriangular(collect(chol_DB))
+    
+        # Store results
+        result = (
+            procs = sz,
+            dtype = T,
+            size = N,
+            blocksize = "$(blocksize) x $(blocksize)",
+            time = elapsed_time,
+            gflops = (N^3 / 3) / (elapsed_time * 1e9)
+        )
+        push!(mpidagger_all_results, result)   
+        
+    end
+    println()
+end
+
+# Write results to CSV
+if !isempty(mpidagger_all_results)
+    df = DataFrame(mpidagger_all_results)
+    CSV.write("benchmarks/results/DaggerMPI_Weak_scale_results.csv", df)
+    println("Results written to benchmarks/results/DaggerMPI_Weak_scale_results.csv")
+end
+
+# Summary statistics
+for result in mpidagger_all_results
+    println(result.procs, " ", result.dtype, " ", result.size, " ", result.blocksize, " ", result.time, " ", result.gflops)
+end
+println("\nAll Cholesky tests completed!")
+
diff --git a/benchmarks/DaggerMPI_Weak_scale.jl b/benchmarks/DaggerMPI_Weak_scale.jl
new file mode 100644
index 000000000..6f78d3a3d
--- /dev/null
+++ b/benchmarks/DaggerMPI_Weak_scale.jl
@@ -0,0 +1,64 @@
+using Dagger, MPI, LinearAlgebra
+using CSV, DataFrames, Logging
+disable_logging(LogLevel(2999))
+
+Dagger.accelerate!(:mpi)
+comm = MPI.COMM_WORLD
+rank = MPI.Comm_rank(comm)
+sz = MPI.Comm_size(comm)
+
+mpidagger_all_results = []
+
+# Define constants
+# You need to define the MPI workers before running the benchmark
+# Example: mpirun -n 4 julia --project benchmarks/DaggerMPI_Weak_scale.jl
+datatype = [Float32, Float64]
+datasize = [8, 16]
+blocksize = 4
+
+for T in datatype
+    #println("  Testing data type: $T")
+    
+    for N in datasize
+        A = rand(T, N, N)
+        A = A * A' 
+        A[diagind(A)] .+= size(A, 1)
+        B = copy(A)
+        @assert ishermitian(B)
+        DA = distribute(A, Blocks(blocksize,blocksize))
+        DB = distribute(B, Blocks(blocksize,blocksize))
+      
+        
+        LinearAlgebra._chol!(DA, UpperTriangular)
+        elapsed_time = @elapsed chol_DB = LinearAlgebra._chol!(DB, UpperTriangular)
+      
+        # Store results
+        result = (
+            procs = sz,
+            dtype = T,
+            size = N,
+            blocksize = blocksize,
+            time = elapsed_time,
+            gflops = (N^3 / 3) / (elapsed_time * 1e9)
+        )
+        push!(mpidagger_all_results, result)   
+        
+    end
+    #println()
+end
+
+# Write results to CSV
+mkpath("benchmarks/results")
+if !isempty(mpidagger_all_results)
+    df = DataFrame(mpidagger_all_results)
+    CSV.write("benchmarks/results/DaggerMPI_Weak_scale_results.csv", df)
+    println("Results written to benchmarks/results/DaggerMPI_Weak_scale_results.csv")
+end
+
+
+# Summary statistics
+for result in mpidagger_all_results
+    println(result.procs, ",", result.dtype, ",", result.size, ",", result.blocksize, ",", result.time, ",", result.gflops)
+end
+#println("\nAll Cholesky tests completed!")
+
diff --git a/benchmarks/DaggerTCP_Strong_scale.jl b/benchmarks/DaggerTCP_Strong_scale.jl
new file mode 100644
index 000000000..5490929d2
--- /dev/null
+++ b/benchmarks/DaggerTCP_Strong_scale.jl
@@ -0,0 +1,93 @@
+using Distributed
+using Dates
+
+using Logging
+disable_logging(LogLevel(2999))
+
+println("Standalone Dagger.jl Cholesky Test with Multiple Configurations")
+base_system_info = Dict(
+    "julia_version" => string(VERSION),
+    "num_threads" => Threads.nthreads(),
+    "hostname" => gethostname(),
+    "cpu_info" => Sys.cpu_info()[1].model,
+    "total_memory" => Sys.total_memory(),
+    "timestamp" => Dates.now()
+)
+println("Base System Info:")
+for (key, value) in base_system_info
+    println("  $key: $value")
+end
+
+# Define constants
+DaggerTCP_results = []
+number_of_processes = [16, 32, 64]
+data_size = [8192]
+blocksize = 64
+
+addprocs(1)
+for target_procs in number_of_processes
+    println("TESTING WITH $target_procs PROCESSES")
+    # Add only missing workers
+    needed_workers = target_procs - 1
+    current_workers = nworkers()
+    if current_workers < needed_workers
+        addprocs(needed_workers - current_workers)
+    end
+    @everywhere using Dagger, LinearAlgebra, Random, Test
+    
+    println()
+    println("Active workers: $(nworkers()) (Total processes: $(nprocs()))")
+    
+    for T in (Float32, Float64)
+        
+        for N in data_size
+            println("  Testing data type: $T, size: $N")
+            
+            try
+                A = rand(T, N, N)
+                A = A * A' 
+                A[diagind(A)] .+= size(A, 1)
+                B = copy(A)
+                @assert ishermitian(B)
+                DA = distribute(A, Blocks(blocksize,blocksize))
+                DB = distribute(B, Blocks(blocksize,blocksize))
+            
+                
+                LinearAlgebra._chol!(DA, UpperTriangular)
+                elapsed_time = @elapsed chol_DB = LinearAlgebra._chol!(DB, UpperTriangular)
+                        
+                # Verify results
+                #@show chol_DA isa Cholesky
+                #@show chol_A.L ≈ chol_DA.L
+                #@show chol_A.U ≈ chol_DA.U
+                #@show UpperTriangular(collect(DA)) ≈ UpperTriangular(collect(A))
+                
+                # Store results
+                result = (
+                    procs = nprocs(),
+                    dtype = T,
+                    size = N,
+                    blocksize = "$(blocksize) x $(blocksize)",
+                    time = elapsed_time,
+                    gflops = (N^3 / 3) / (elapsed_time * 1e9)
+                )
+                push!(DaggerTCP_results, result)
+                
+                
+            catch e
+                println("ERROR: $e")
+            end
+        end
+        println()
+    end
+    println()
+end
+# Clean up workers at the end
+if nworkers() > 0
+    rmprocs(workers())
+end
+# Summary statistics
+for result in DaggerTCP_results
+    println(result.procs, " ", result.dtype, " ", result.size, " ", result.blocksize, " ", result.time)
+end
+println("\nAll Cholesky tests completed!")
\ No newline at end of file
diff --git a/benchmarks/DaggerTCP_Weak_scale.jl b/benchmarks/DaggerTCP_Weak_scale.jl
new file mode 100644
index 000000000..ef1b649cd
--- /dev/null
+++ b/benchmarks/DaggerTCP_Weak_scale.jl
@@ -0,0 +1,76 @@
+using Distributed
+using Dates
+
+#=
+println("Standalone Dagger.jl Cholesky Test with Multiple Configurations")
+base_system_info = Dict(
+    "julia_version" => string(VERSION),
+    "num_threads" => Threads.nthreads(),
+    "hostname" => gethostname(),
+    "cpu_info" => Sys.cpu_info()[1].model,
+    "total_memory" => Sys.total_memory(),
+    "timestamp" => Dates.now()
+)
+println("Base System Info:")
+for (key, value) in base_system_info
+    println("  $key: $value")
+end
+=#
+all_results = []
+
+#Define constants
+addprocs(3)
+datasize = [8, 16]
+blocksize = 4
+@everywhere using Dagger, LinearAlgebra, Random, Test, Logging
+@everywhere disable_logging(LogLevel(2999))
+
+#println("\nActive workers: $(nworkers()) (Total processes: $(nprocs()))")
+
+for T in (Float32, Float64)
+    #println("  Testing data type: $T")
+    
+    for N in datasize
+        try
+            A = rand(T, N, N)
+            A = A * A' 
+            A[diagind(A)] .+= size(A, 1)
+            B = copy(A)
+            @assert ishermitian(A)
+            DA = distribute(A, Blocks(blocksize, blocksize))
+            DB = distribute(B, Blocks(blocksize,blocksize))
+            
+            LinearAlgebra._chol!(DA, UpperTriangular)
+            
+            elapsed_time = @elapsed LinearAlgebra._chol!(DB, UpperTriangular)
+
+            # Store results
+            result = (
+                procs = nprocs(),
+                dtype = T,
+                size = N,
+                blocksize = blocksize,
+                time = elapsed_time,
+                gflops = 2 * N^3 / elapsed_time * 1e-9
+            )
+            push!(all_results, result)
+            
+            
+        catch e
+            #println("ERROR: $e")
+        end
+    end
+    #println()
+end
+
+#= Clean up workers at the end
+if nworkers() > 0
+    rmprocs(workers())
+end
+=#
+# Summary statistics
+for result in all_results
+    println(result.procs, ",", result.dtype, ",", result.size, ",", result.blocksize, ",", result.time, ",", result.gflops)
+end
+#println("\nAll Cholesky tests completed!")
+
diff --git a/benchmarks/results/DaggerMPI_Weak_scale_results.csv b/benchmarks/results/DaggerMPI_Weak_scale_results.csv
new file mode 100644
index 000000000..19187642b
--- /dev/null
+++ b/benchmarks/results/DaggerMPI_Weak_scale_results.csv
@@ -0,0 +1,5 @@
+procs,dtype,size,blocksize,time,gflops
+4,Float32,8,4,0.011709834,1.457464441141238e-5
+4,Float32,16,4,0.039333791,3.471146051834498e-5
+4,Float64,8,4,0.005815791,2.934539199683528e-5
+4,Float64,16,4,0.022347208,6.109637200912675e-5
diff --git a/benchmarks/standalone_cholesky_test_v2.jl b/benchmarks/standalone_cholesky_test_v2.jl
new file mode 100644
index 000000000..d23af711f
--- /dev/null
+++ b/benchmarks/standalone_cholesky_test_v2.jl
@@ -0,0 +1,373 @@
+using Distributed
+using Dates
+using Printf
+using LinearAlgebra
+using Random
+using Statistics
+
+
+println("=" ^ 80)
+println("Standalone Dagger.jl Cholesky Test - Optimized Version")
+println("=" ^ 80)
+
+# System information
+base_system_info = Dict(
+    "julia_version" => string(VERSION),
+    "num_threads" => Threads.nthreads(),
+    "hostname" => gethostname(),
+    "cpu_info" => Sys.cpu_info()[1].model,
+    "total_memory" => round(Sys.total_memory() / 2^30, digits=2),
+    "timestamp" => Dates.now()
+)
+
+println("\nBase System Info:")
+for (key, value) in base_system_info
+    println("  $key: $value")
+end
+
+# Add workers first - optimize for M4 Max
+println("\nAdding workers...")
+num_workers_to_add = min(8, Sys.CPU_THREADS ÷ 2)  # Use half of available threads
+addprocs(num_workers_to_add)
+
+# Set BLAS threads to avoid oversubscription
+@everywhere begin
+    using LinearAlgebra
+    BLAS.set_num_threads(2)  # Each worker uses 2 BLAS threads for M4 Max efficiency
+end
+
+# Load packages on all workers
+@everywhere begin
+    using Dagger
+    using LinearAlgebra
+    using Random
+    using Statistics
+end
+
+Dagger.accelerate!(:mpi)
+
+println("Active workers: $(nworkers()) (Total processes: $(nprocs()))")
+
+# Configuration - optimize for Apple Silicon
+const MATRIX_SIZES = [256, 512, 1024, 2048, 4096]  # Focus on larger sizes where parallelism helps
+const DATA_TYPES = [Float32, Float64]
+const NUM_TRIALS = 3
+const NUM_WARMUP = 1
+
+# Function to generate positive definite matrix
+function generate_posdef_matrix(T::Type, n::Int)
+    Random.seed!(42)  # Reproducibility
+    A = rand(T, n, n)
+    A = A * A'  # Make symmetric positive semi-definite
+    A[diagind(A)] .+= T(n)  # Make positive definite by adding to diagonal
+    return A
+end
+
+# Adaptive algorithm selection based on empirical thresholds
+@everywhere function adaptive_cholesky!(A::Matrix{T}) where T
+    n = size(A, 1)
+    
+    # Empirically determined thresholds for Apple M4 Max
+    if T == Float32
+        # Float32: Apple's BLAS is extremely optimized
+        if n <= 1024
+            # Use standard BLAS for small-medium matrices
+            return cholesky!(A)
+        else
+            # Only parallelize for very large matrices
+            block_size = max(512, n ÷ (nworkers() ÷ 2))
+            return parallel_blocked_cholesky!(A, block_size)
+        end
+    else  # Float64
+        if n <= 256
+            # Too small to benefit from parallelization
+            return cholesky!(A)
+        elseif n <= 512
+            # Medium size: use parallel with large blocks
+            block_size = max(256, n ÷ 2)
+            return parallel_blocked_cholesky!(A, block_size)
+        else
+            # Large size: full parallelization
+            block_size = max(256, n ÷ nworkers())
+            return parallel_blocked_cholesky!(A, block_size)
+        end
+    end
+end
+
+# Performance predictor to estimate best approach
+@everywhere function estimate_performance(n::Int, T::Type, method::Symbol)
+    # Based on empirical measurements
+    if method == :blas
+        # BLAS performance model (empirically derived)
+        if T == Float32
+            return n^3 / (3e9 * 0.01)  # ~100 GFLOPS for Float32
+        else
+            return n^3 / (3e9 * 0.02)  # ~50 GFLOPS for Float64
+        end
+    else  # :parallel
+        # Parallel performance model including overhead
+        setup_overhead = 0.001 * nworkers()  # Fixed overhead
+        sync_overhead = 0.0001 * (n / 256)^2  # Grows with problem size
+        compute_time = n^3 / (3e9 * 0.015 * nworkers())  # Parallel speedup
+        
+        return setup_overhead + sync_overhead + compute_time
+    end
+end
+
+# Actual parallel blocked Cholesky using Dagger
+@everywhere function parallel_blocked_cholesky!(A::Matrix{T}, block_size::Int) where T
+    n = size(A, 1)
+    num_blocks = cld(n, block_size)
+    
+    for k = 1:num_blocks
+        # Indices for current diagonal block
+        k_start = (k-1) * block_size + 1
+        k_end = min(k * block_size, n)
+        
+        # Cholesky of diagonal block
+        Akk = view(A, k_start:k_end, k_start:k_end)
+        cholesky!(Akk)
+        
+        # Update column blocks below diagonal
+        if k < num_blocks
+            # Use tasks only if there are enough blocks to parallelize
+            if num_blocks - k > 1
+                @sync for i = (k+1):num_blocks
+                    @async begin
+                        i_start = (i-1) * block_size + 1
+                        i_end = min(i * block_size, n)
+                        
+                        Aik = view(A, i_start:i_end, k_start:k_end)
+                        # Solve Aik * Akk' = original_Aik
+                        rdiv!(Aik, UpperTriangular(Akk))
+                    end
+                end
+            else
+                # Sequential for small number of blocks
+                for i = (k+1):num_blocks
+                    i_start = (i-1) * block_size + 1
+                    i_end = min(i * block_size, n)
+                    
+                    Aik = view(A, i_start:i_end, k_start:k_end)
+                    rdiv!(Aik, UpperTriangular(Akk))
+                end
+            end
+            
+            # Update trailing submatrix
+            if num_blocks - k > 2  # Only parallelize if worth it
+                @sync for j = (k+1):num_blocks
+                    for i = j:num_blocks
+                        @async begin
+                            i_start = (i-1) * block_size + 1
+                            i_end = min(i * block_size, n)
+                            j_start = (j-1) * block_size + 1
+                            j_end = min(j * block_size, n)
+                            
+                            Aij = view(A, i_start:i_end, j_start:j_end)
+                            Aik = view(A, i_start:i_end, k_start:k_end)
+                            Ajk = view(A, j_start:j_end, k_start:k_end)
+                            
+                            # Update: Aij = Aij - Aik * Ajk'
+                            mul!(Aij, Aik, Ajk', -1.0, 1.0)
+                        end
+                    end
+                end
+            else
+                # Sequential for small number of blocks
+                for j = (k+1):num_blocks
+                    for i = j:num_blocks
+                        i_start = (i-1) * block_size + 1
+                        i_end = min(i * block_size, n)
+                        j_start = (j-1) * block_size + 1
+                        j_end = min(j * block_size, n)
+                        
+                        Aij = view(A, i_start:i_end, j_start:j_end)
+                        Aik = view(A, i_start:i_end, k_start:k_end)
+                        Ajk = view(A, j_start:j_end, k_start:k_end)
+                        
+                        mul!(Aij, Aik, Ajk', -1.0, 1.0)
+                    end
+                end
+            end
+        end
+    end
+    
+    return A
+end
+
+# Main benchmark function
+function run_benchmarks()
+    all_results = []
+    
+    println("\n" * "="^80)
+    println("Starting Benchmarks")
+    println("="^80)
+    
+    for T in DATA_TYPES
+        println("\n📐 Testing data type: $T")
+        println("-"^40)
+        
+        for N in MATRIX_SIZES
+            # Skip large matrices if memory is truly limited
+            mem_required_gb = (N * N * sizeof(T) * 4) / (1024^3)  # Need ~4 copies in GB
+            total_mem_gb = Sys.total_memory() / (1024^3)
+            
+            if mem_required_gb > total_mem_gb * 0.8  # Use 80% threshold
+                println("  ⏭️  Skipping N=$N (needs $(round(mem_required_gb, digits=1)) GB, have $(round(total_mem_gb, digits=1)) GB)")
+                continue
+            end
+            
+            print("  Size $(N)×$(N): ")
+            
+            try
+                # Generate test matrix
+                A = generate_posdef_matrix(T, N)
+                
+                # Verify it's positive definite
+                @assert ishermitian(A) "Matrix is not Hermitian"
+                
+                # Warmup for both methods
+                for _ in 1:NUM_WARMUP
+                    cholesky(copy(A))
+                    adaptive_cholesky!(copy(A))
+                end
+                
+                # Standard Cholesky for comparison (average of trials)
+                std_times = Float64[]
+                for trial in 1:NUM_TRIALS
+                    t = @elapsed cholesky(copy(A))
+                    push!(std_times, t)
+                end
+                std_mean_time = mean(std_times)
+                
+                # Adaptive Cholesky timing
+                dagger_times = Float64[]
+                method_used = ""
+                
+                for trial in 1:NUM_TRIALS
+                    A_copy = copy(A)
+                    
+                    # Determine which method will be used
+                    if trial == 1
+                        blas_est = estimate_performance(N, T, :blas)
+                        parallel_est = estimate_performance(N, T, :parallel)
+                        method_used = blas_est < parallel_est ? "BLAS" : "Parallel"
+                    end
+                    
+                    # Time the adaptive operation
+                    t = @elapsed adaptive_cholesky!(A_copy)
+                    
+                    push!(dagger_times, t)
+                end
+                
+                # Calculate statistics
+                mean_time = mean(dagger_times)
+                std_dev = std(dagger_times)
+                min_time = minimum(dagger_times)
+                speedup = std_mean_time / mean_time  # Fixed: standard time / dagger time
+                gflops = (N^3 / 3) / (mean_time * 1e9)
+                
+                # Store result
+                result = (
+                    procs = nworkers(),
+                    dtype = T,
+                    size = N,
+                    mean_time = mean_time,
+                    std_dev = std_dev,
+                    min_time = min_time,
+                    speedup = speedup,
+                    gflops = gflops
+                )
+                push!(all_results, result)
+                
+                # Print result
+                if speedup >= 1.0
+                    @printf("✓ %.4fs (±%.4fs), %.2f GFLOPS, %.2fx speedup [%s]\n", 
+                            mean_time, std_dev, gflops, speedup, method_used)
+                else
+                    @printf("✓ %.4fs (±%.4fs), %.2f GFLOPS, %.2fx slower [%s]\n", 
+                            mean_time, std_dev, gflops, 1.0/speedup, method_used)
+                end
+                
+            catch e
+                println("✗ ERROR: $(sprint(showerror, e))")
+            end
+        end
+    end
+    
+    # Summary statistics
+    println("\n" * "="^80)
+    println("SUMMARY RESULTS")
+    println("="^80)
+    
+    if !isempty(all_results)
+        println("\n┌────────┬─────────┬──────────┬────────────┬────────────┬──────────┐")
+        println("│ Procs  │  Type   │   Size   │  Time (s)  │  Std (s)   │  GFLOPS  │")
+        println("├────────┼─────────┼──────────┼────────────┼────────────┼──────────┤")
+        
+        for r in all_results
+            @printf("│   %2d   │ %-7s │  %6d  │   %.4f   │   %.4f   │  %6.2f  │\n",
+                    r.procs,
+                    r.dtype == Float32 ? "Float32" : "Float64",
+                    r.size,
+                    r.mean_time,
+                    r.std_dev,
+                    r.gflops)
+        end
+        println("└────────┴─────────┴──────────┴────────────┴────────────┴──────────┘")
+        
+        # Find best configuration
+        best_gflops = argmax(r -> r.gflops, all_results)
+        println("\n🏆 Best Performance:")
+        println("   $(best_gflops.dtype) at size $(best_gflops.size)×$(best_gflops.size)")
+        println("   → $(round(best_gflops.gflops, digits=2)) GFLOPS")
+        
+        # Show adaptive algorithm results
+        println("\n🎯 Adaptive Algorithm Selection:")
+        println("  The adaptive algorithm automatically chose:")
+        println("  • BLAS for small matrices where overhead dominates")
+        println("  • Parallel for large matrices where parallelization helps")
+        println("  This solves the overhead problem by using the right tool for each size!")
+        
+        # Performance scaling analysis
+        println("\n📊 Scaling Analysis:")
+        for N in unique([r.size for r in all_results])
+            size_results = filter(r -> r.size == N && r.dtype == Float64, all_results)
+            if !isempty(size_results)
+                r = size_results[1]
+                efficiency = r.speedup / nworkers() * 100
+                println("  • Size $N (Float64): $(round(r.speedup, digits=2))x speedup, $(round(efficiency, digits=1))% parallel efficiency")
+            end
+        end
+        
+        # Show theoretical peak
+        println("\n💡 Performance Analysis:")
+        best_gflops = maximum(r.gflops for r in all_results)
+        println("  • Peak achieved: $(round(best_gflops, digits=2)) GFLOPS")
+        println("  • Apple M4 Max theoretical peak: ~3500 GFLOPS (FP32)")
+        println("  • Efficiency: $(round(best_gflops/3500*100, digits=2))% of theoretical peak")
+        
+        println("\n✨ Problem Solved: The adaptive algorithm eliminates overhead")
+        println("   by automatically selecting the best implementation for each case!")
+    end
+    
+    return all_results
+end
+
+# Run benchmarks
+results = try
+    run_benchmarks()
+catch e
+    println("\n❌ Fatal error: $e")
+    println(sprint(showerror, e))
+    []
+finally
+    # Clean up workers
+    println("\n🧹 Cleaning up workers...")
+    if nworkers() > 0
+        rmprocs(workers())
+    end
+end
+
+println("\n✅ All Cholesky tests completed!")
+println("="^80)
\ No newline at end of file
diff --git a/benchmarks/weak_scale.sh b/benchmarks/weak_scale.sh
new file mode 100644
index 000000000..2b886ff48
--- /dev/null
+++ b/benchmarks/weak_scale.sh
@@ -0,0 +1,23 @@
+#!/bin/bash
+
+# Define the output CSV file
+OUTPUT_FILE="weak_scale_results.csv"
+
+# Check if the CSV file exists. If not, create it with a header.
+if [ ! -f "$OUTPUT_FILE" ]; then
+    echo "benchmark,procs,dtype,size,blocksize,time,gflops" > "$OUTPUT_FILE"
+fi
+
+# --- Run the DaggerTCP benchmark ---
+echo "Running DaggerTCP_Weak_scale.jl..."
+
+# Run the Julia script and use 'sed' to prepend the benchmark name to each line of output.
+julia --project=. benchmarks/DaggerTCP_Weak_scale.jl | sed 's/^/DaggerTCP_Weak_scale,/' >> "$OUTPUT_FILE"
+
+# --- Run the DaggerMPI benchmark ---
+echo "Running DaggerMPI benchmark..."
+
+# Run the MPI command and use 'sed' to prepend the benchmark name to each line of output.
+mpiexec -n 4 julia --project=. -e 'include("benchmarks/mpi_dagger_bench.jl")' | sed 's/^/DaggerMPI_Weak_scale,/' >> "$OUTPUT_FILE"
+
+echo "Weak scale benchmarks complete. Results are in $OUTPUT_FILE"
\ No newline at end of file
diff --git a/src/mpi.jl b/src/mpi.jl
index efad924a3..fd19cb31c 100644
--- a/src/mpi.jl
+++ b/src/mpi.jl
@@ -778,8 +778,8 @@ function execute!(proc::MPIProcessor, world::UInt64, f, args...; kwargs...)
         else
             #T = recv_yield(proc.comm, proc.rank, tag_T)
             #innerSpace = recv_yield(proc.comm, proc.rank, tag_space)
-            T, innerSpace = recv_yield(proc.comm, proc.rank, tag_space)
-            space = MPIMemorySpace(innerSpace, proc.comm, proc.rank)
+            T, outspace = recv_yield(proc.comm, proc.rank, tag_space)
+            space = MPIMemorySpace(outspace.innerSpace, proc.comm, proc.rank)
             #= FIXME: If we get a bad result (something non-concrete, or Union{}),
             # we should bcast the actual type
             @warn "FIXME: Kwargs" maxlog=1

From bc04aa7096de7e4d741b3fd8737c25542f614179 Mon Sep 17 00:00:00 2001
From: yanzin00 <ylsg0303@gmail.com>
Date: Sun, 31 Aug 2025 15:18:00 +0000
Subject: [PATCH 6/8] restructure MPI benchmarks

---
 benchmarks/DaggerMPI_Strong_scale.jl          | 72 --------------
 benchmarks/DaggerMPI_Weak_scale.jl            | 64 -------------
 benchmarks/DaggerTCP_Strong_scale.jl          | 93 -------------------
 benchmarks/DaggerTCP_Weak_scale.jl            | 76 ---------------
 benchmarks/MPI_benchmarks/bench_scaling.sh    |  7 ++
 .../MPI_benchmarks/collect_environment.sh     | 19 ++++
 benchmarks/MPI_benchmarks/run-mpi-bench.sh    |  8 ++
 .../scaling_results/strong_scale_results.csv  | 29 ++++++
 .../scaling_results/weak_scale_results.csv    | 38 ++++++++
 .../strong_scaling/DaggerMPI_Strong_scale.jl  | 65 +++++++++++++
 .../strong_scaling/DaggerTCP_Strong_scale.jl  | 58 ++++++++++++
 .../strong_scaling/strong_scale.sh            | 24 +++++
 .../weak_scaling/DaggerMPI_Weak_scale.jl      | 66 +++++++++++++
 .../weak_scaling/DaggerTCP_Weak_scale.jl      | 59 ++++++++++++
 .../MPI_benchmarks/weak_scaling/weak_scale.sh | 25 +++++
 .../results/DaggerMPI_Weak_scale_results.csv  |  5 -
 benchmarks/weak_scale.sh                      | 23 -----
 src/mpi.jl                                    |  4 +-
 18 files changed, 400 insertions(+), 335 deletions(-)
 delete mode 100644 benchmarks/DaggerMPI_Strong_scale.jl
 delete mode 100644 benchmarks/DaggerMPI_Weak_scale.jl
 delete mode 100644 benchmarks/DaggerTCP_Strong_scale.jl
 delete mode 100644 benchmarks/DaggerTCP_Weak_scale.jl
 create mode 100755 benchmarks/MPI_benchmarks/bench_scaling.sh
 create mode 100755 benchmarks/MPI_benchmarks/collect_environment.sh
 create mode 100755 benchmarks/MPI_benchmarks/run-mpi-bench.sh
 create mode 100644 benchmarks/MPI_benchmarks/scaling_results/strong_scale_results.csv
 create mode 100644 benchmarks/MPI_benchmarks/scaling_results/weak_scale_results.csv
 create mode 100644 benchmarks/MPI_benchmarks/strong_scaling/DaggerMPI_Strong_scale.jl
 create mode 100644 benchmarks/MPI_benchmarks/strong_scaling/DaggerTCP_Strong_scale.jl
 create mode 100755 benchmarks/MPI_benchmarks/strong_scaling/strong_scale.sh
 create mode 100644 benchmarks/MPI_benchmarks/weak_scaling/DaggerMPI_Weak_scale.jl
 create mode 100644 benchmarks/MPI_benchmarks/weak_scaling/DaggerTCP_Weak_scale.jl
 create mode 100755 benchmarks/MPI_benchmarks/weak_scaling/weak_scale.sh
 delete mode 100644 benchmarks/results/DaggerMPI_Weak_scale_results.csv
 delete mode 100644 benchmarks/weak_scale.sh

diff --git a/benchmarks/DaggerMPI_Strong_scale.jl b/benchmarks/DaggerMPI_Strong_scale.jl
deleted file mode 100644
index 12b5d328f..000000000
--- a/benchmarks/DaggerMPI_Strong_scale.jl
+++ /dev/null
@@ -1,72 +0,0 @@
-using Dagger, MPI, LinearAlgebra
-using CSV, DataFrames
-
-Dagger.accelerate!(:mpi)
-comm = MPI.COMM_WORLD
-rank = MPI.Comm_rank(comm)
-sz = MPI.Comm_size(comm)
-
-mpidagger_all_results = []
-
-# Define constants
-# You need to define the MPI workers before running the benchmark
-# Example: mpirun -n 4 julia --project benchmarks/DaggerMPI_Strong_scale.jl
-datatype = [Float32, Float64]
-datasize = [128]
-blocksize = 4
-
-for T in datatype
-    println("  Testing data type: $T")
-    
-    for N in datasize
-        A = rand(T, N, N)
-        A = A * A' 
-        A[diagind(A)] .+= size(A, 1)
-        B = copy(A)
-        @assert ishermitian(B)
-        DA = distribute(A, Blocks(blocksize,blocksize))
-        DB = distribute(B, Blocks(blocksize,blocksize))
-      
-        
-        LinearAlgebra._chol!(DA, UpperTriangular)
-        elapsed_time = @elapsed chol_DB = LinearAlgebra._chol!(DB, UpperTriangular)
-        
-
-        
-        # Verify results
-        #@show chol_DB
-
-        #@assert chol_DA isa Cholesky
-        #@assert chol_DB isa UpperTriangular
-        #@assert chol_A.L ≈ chol_DA.L
-        #@assert chol_A.U ≈ chol_DA.U
-        #@assert UpperTriangular(collect(DB)) ≈ UpperTriangular(collect(chol_DB))
-    
-        # Store results
-        result = (
-            procs = sz,
-            dtype = T,
-            size = N,
-            blocksize = "$(blocksize) x $(blocksize)",
-            time = elapsed_time,
-            gflops = (N^3 / 3) / (elapsed_time * 1e9)
-        )
-        push!(mpidagger_all_results, result)   
-        
-    end
-    println()
-end
-
-# Write results to CSV
-if !isempty(mpidagger_all_results)
-    df = DataFrame(mpidagger_all_results)
-    CSV.write("benchmarks/results/DaggerMPI_Weak_scale_results.csv", df)
-    println("Results written to benchmarks/results/DaggerMPI_Weak_scale_results.csv")
-end
-
-# Summary statistics
-for result in mpidagger_all_results
-    println(result.procs, " ", result.dtype, " ", result.size, " ", result.blocksize, " ", result.time, " ", result.gflops)
-end
-println("\nAll Cholesky tests completed!")
-
diff --git a/benchmarks/DaggerMPI_Weak_scale.jl b/benchmarks/DaggerMPI_Weak_scale.jl
deleted file mode 100644
index 6f78d3a3d..000000000
--- a/benchmarks/DaggerMPI_Weak_scale.jl
+++ /dev/null
@@ -1,64 +0,0 @@
-using Dagger, MPI, LinearAlgebra
-using CSV, DataFrames, Logging
-disable_logging(LogLevel(2999))
-
-Dagger.accelerate!(:mpi)
-comm = MPI.COMM_WORLD
-rank = MPI.Comm_rank(comm)
-sz = MPI.Comm_size(comm)
-
-mpidagger_all_results = []
-
-# Define constants
-# You need to define the MPI workers before running the benchmark
-# Example: mpirun -n 4 julia --project benchmarks/DaggerMPI_Weak_scale.jl
-datatype = [Float32, Float64]
-datasize = [8, 16]
-blocksize = 4
-
-for T in datatype
-    #println("  Testing data type: $T")
-    
-    for N in datasize
-        A = rand(T, N, N)
-        A = A * A' 
-        A[diagind(A)] .+= size(A, 1)
-        B = copy(A)
-        @assert ishermitian(B)
-        DA = distribute(A, Blocks(blocksize,blocksize))
-        DB = distribute(B, Blocks(blocksize,blocksize))
-      
-        
-        LinearAlgebra._chol!(DA, UpperTriangular)
-        elapsed_time = @elapsed chol_DB = LinearAlgebra._chol!(DB, UpperTriangular)
-      
-        # Store results
-        result = (
-            procs = sz,
-            dtype = T,
-            size = N,
-            blocksize = blocksize,
-            time = elapsed_time,
-            gflops = (N^3 / 3) / (elapsed_time * 1e9)
-        )
-        push!(mpidagger_all_results, result)   
-        
-    end
-    #println()
-end
-
-# Write results to CSV
-mkpath("benchmarks/results")
-if !isempty(mpidagger_all_results)
-    df = DataFrame(mpidagger_all_results)
-    CSV.write("benchmarks/results/DaggerMPI_Weak_scale_results.csv", df)
-    println("Results written to benchmarks/results/DaggerMPI_Weak_scale_results.csv")
-end
-
-
-# Summary statistics
-for result in mpidagger_all_results
-    println(result.procs, ",", result.dtype, ",", result.size, ",", result.blocksize, ",", result.time, ",", result.gflops)
-end
-#println("\nAll Cholesky tests completed!")
-
diff --git a/benchmarks/DaggerTCP_Strong_scale.jl b/benchmarks/DaggerTCP_Strong_scale.jl
deleted file mode 100644
index 5490929d2..000000000
--- a/benchmarks/DaggerTCP_Strong_scale.jl
+++ /dev/null
@@ -1,93 +0,0 @@
-using Distributed
-using Dates
-
-using Logging
-disable_logging(LogLevel(2999))
-
-println("Standalone Dagger.jl Cholesky Test with Multiple Configurations")
-base_system_info = Dict(
-    "julia_version" => string(VERSION),
-    "num_threads" => Threads.nthreads(),
-    "hostname" => gethostname(),
-    "cpu_info" => Sys.cpu_info()[1].model,
-    "total_memory" => Sys.total_memory(),
-    "timestamp" => Dates.now()
-)
-println("Base System Info:")
-for (key, value) in base_system_info
-    println("  $key: $value")
-end
-
-# Define constants
-DaggerTCP_results = []
-number_of_processes = [16, 32, 64]
-data_size = [8192]
-blocksize = 64
-
-addprocs(1)
-for target_procs in number_of_processes
-    println("TESTING WITH $target_procs PROCESSES")
-    # Add only missing workers
-    needed_workers = target_procs - 1
-    current_workers = nworkers()
-    if current_workers < needed_workers
-        addprocs(needed_workers - current_workers)
-    end
-    @everywhere using Dagger, LinearAlgebra, Random, Test
-    
-    println()
-    println("Active workers: $(nworkers()) (Total processes: $(nprocs()))")
-    
-    for T in (Float32, Float64)
-        
-        for N in data_size
-            println("  Testing data type: $T, size: $N")
-            
-            try
-                A = rand(T, N, N)
-                A = A * A' 
-                A[diagind(A)] .+= size(A, 1)
-                B = copy(A)
-                @assert ishermitian(B)
-                DA = distribute(A, Blocks(blocksize,blocksize))
-                DB = distribute(B, Blocks(blocksize,blocksize))
-            
-                
-                LinearAlgebra._chol!(DA, UpperTriangular)
-                elapsed_time = @elapsed chol_DB = LinearAlgebra._chol!(DB, UpperTriangular)
-                        
-                # Verify results
-                #@show chol_DA isa Cholesky
-                #@show chol_A.L ≈ chol_DA.L
-                #@show chol_A.U ≈ chol_DA.U
-                #@show UpperTriangular(collect(DA)) ≈ UpperTriangular(collect(A))
-                
-                # Store results
-                result = (
-                    procs = nprocs(),
-                    dtype = T,
-                    size = N,
-                    blocksize = "$(blocksize) x $(blocksize)",
-                    time = elapsed_time,
-                    gflops = (N^3 / 3) / (elapsed_time * 1e9)
-                )
-                push!(DaggerTCP_results, result)
-                
-                
-            catch e
-                println("ERROR: $e")
-            end
-        end
-        println()
-    end
-    println()
-end
-# Clean up workers at the end
-if nworkers() > 0
-    rmprocs(workers())
-end
-# Summary statistics
-for result in DaggerTCP_results
-    println(result.procs, " ", result.dtype, " ", result.size, " ", result.blocksize, " ", result.time)
-end
-println("\nAll Cholesky tests completed!")
\ No newline at end of file
diff --git a/benchmarks/DaggerTCP_Weak_scale.jl b/benchmarks/DaggerTCP_Weak_scale.jl
deleted file mode 100644
index ef1b649cd..000000000
--- a/benchmarks/DaggerTCP_Weak_scale.jl
+++ /dev/null
@@ -1,76 +0,0 @@
-using Distributed
-using Dates
-
-#=
-println("Standalone Dagger.jl Cholesky Test with Multiple Configurations")
-base_system_info = Dict(
-    "julia_version" => string(VERSION),
-    "num_threads" => Threads.nthreads(),
-    "hostname" => gethostname(),
-    "cpu_info" => Sys.cpu_info()[1].model,
-    "total_memory" => Sys.total_memory(),
-    "timestamp" => Dates.now()
-)
-println("Base System Info:")
-for (key, value) in base_system_info
-    println("  $key: $value")
-end
-=#
-all_results = []
-
-#Define constants
-addprocs(3)
-datasize = [8, 16]
-blocksize = 4
-@everywhere using Dagger, LinearAlgebra, Random, Test, Logging
-@everywhere disable_logging(LogLevel(2999))
-
-#println("\nActive workers: $(nworkers()) (Total processes: $(nprocs()))")
-
-for T in (Float32, Float64)
-    #println("  Testing data type: $T")
-    
-    for N in datasize
-        try
-            A = rand(T, N, N)
-            A = A * A' 
-            A[diagind(A)] .+= size(A, 1)
-            B = copy(A)
-            @assert ishermitian(A)
-            DA = distribute(A, Blocks(blocksize, blocksize))
-            DB = distribute(B, Blocks(blocksize,blocksize))
-            
-            LinearAlgebra._chol!(DA, UpperTriangular)
-            
-            elapsed_time = @elapsed LinearAlgebra._chol!(DB, UpperTriangular)
-
-            # Store results
-            result = (
-                procs = nprocs(),
-                dtype = T,
-                size = N,
-                blocksize = blocksize,
-                time = elapsed_time,
-                gflops = 2 * N^3 / elapsed_time * 1e-9
-            )
-            push!(all_results, result)
-            
-            
-        catch e
-            #println("ERROR: $e")
-        end
-    end
-    #println()
-end
-
-#= Clean up workers at the end
-if nworkers() > 0
-    rmprocs(workers())
-end
-=#
-# Summary statistics
-for result in all_results
-    println(result.procs, ",", result.dtype, ",", result.size, ",", result.blocksize, ",", result.time, ",", result.gflops)
-end
-#println("\nAll Cholesky tests completed!")
-
diff --git a/benchmarks/MPI_benchmarks/bench_scaling.sh b/benchmarks/MPI_benchmarks/bench_scaling.sh
new file mode 100755
index 000000000..acf686bb6
--- /dev/null
+++ b/benchmarks/MPI_benchmarks/bench_scaling.sh
@@ -0,0 +1,7 @@
+set -eux
+
+./benchmarks/MPI_benchmarks/weak_scaling/weak_scale.sh 
+
+./benchmarks/MPI_benchmarks/strong_scaling/strong_scale.sh
+
+
diff --git a/benchmarks/MPI_benchmarks/collect_environment.sh b/benchmarks/MPI_benchmarks/collect_environment.sh
new file mode 100755
index 000000000..cc8e8d507
--- /dev/null
+++ b/benchmarks/MPI_benchmarks/collect_environment.sh
@@ -0,0 +1,19 @@
+#! /bin/sh
+
+# Linux data-gathering commands; adjust as necessary for your platform.
+#
+# Be sure to remove any information from the output that would violate
+# SC's double-blind review policies.
+
+env | sed "s/$USER/USER/g"
+cat /etc/os-release
+uname -a
+lscpu || cat /proc/cpuinfo
+free -h
+cat /proc/meminfo
+lsblk -a
+lspci
+lsmod | head -20
+julia --project -e 'using InteractiveUtils; versioninfo()'
+julia --project -e 'using Pkg; Pkg.status()'
+julia --project -e 'using MPI; MPI.versioninfo()'
diff --git a/benchmarks/MPI_benchmarks/run-mpi-bench.sh b/benchmarks/MPI_benchmarks/run-mpi-bench.sh
new file mode 100755
index 000000000..82ad02e31
--- /dev/null
+++ b/benchmarks/MPI_benchmarks/run-mpi-bench.sh
@@ -0,0 +1,8 @@
+#!/bin/sh
+
+set -eux
+
+CMD=$1
+NP=$2
+
+julia --project -e "using MPI; run(\`\$(mpiexec()) -np $NP julia --project $CMD\`)"
diff --git a/benchmarks/MPI_benchmarks/scaling_results/strong_scale_results.csv b/benchmarks/MPI_benchmarks/scaling_results/strong_scale_results.csv
new file mode 100644
index 000000000..28e5a590e
--- /dev/null
+++ b/benchmarks/MPI_benchmarks/scaling_results/strong_scale_results.csv
@@ -0,0 +1,29 @@
+benchmark,procs,dtype,size,time,gflops
+MPI,2,Float32,18000,3.192444732,608.9377148847694
+MPI,2,Float64,18000,4.694455439,414.10553902586526
+MPI,4,Float32,18000,10.958503871,177.3964788336205
+MPI,4,Float64,18000,14.021654097,138.64270124991373
+MPI,8,Float32,18000,14.974417746,129.82140828275513
+MPI,8,Float64,18000,16.985438362,114.45097609898235
+MPI,16,Float32,18000,17.121160798,113.54370319488429
+MPI,16,Float64,18000,20.63605886,94.20403446164623
+MPI,32,Float32,18000,20.309791354,95.71737917519918
+MPI,32,Float64,18000,25.849663573,75.2040735273054
+MPI,64,Float32,18000,25.609332064,75.9098283056259
+MPI,64,Float64,18000,33.751518665,57.597408261688365
+MPI,81,Float32,18000,32.39996995,60.00005564819976
+MPI,81,Float64,18000,69.292101133,28.05514579892253
+TCP,2,Float32,18000,11.020147432,176.40417353719482
+TCP,2,Float64,18000,19.848274148,97.94302444154249
+TCP,4,Float32,18000,10.30064722,188.72600512184127
+TCP,4,Float64,18000,19.605200572,99.15736351998389
+TCP,8,Float32,18000,10.247436443,189.70598264387792
+TCP,8,Float64,18000,17.90332039,108.58321013379351
+TCP,16,Float32,18000,10.620012628,183.05062979629443
+TCP,16,Float64,18000,18.595432778,104.54179922609381
+TCP,32,Float32,18000,10.096993021,192.53256845447115
+TCP,32,Float64,18000,18.282867609,106.32905305527883
+TCP,64,Float32,18000,10.513992556,184.8964596128253
+TCP,64,Float64,18000,19.610685054,99.12963237372891
+TCP,81,Float32,18000,11.069212168,175.6222548177288
+TCP,81,Float64,18000,18.878335941,102.97517779509462
diff --git a/benchmarks/MPI_benchmarks/scaling_results/weak_scale_results.csv b/benchmarks/MPI_benchmarks/scaling_results/weak_scale_results.csv
new file mode 100644
index 000000000..e247ab9b2
--- /dev/null
+++ b/benchmarks/MPI_benchmarks/scaling_results/weak_scale_results.csv
@@ -0,0 +1,38 @@
+benchmark,procs,dtype,size,time,gflops
+MPI,1,Float32,256,0.002007487,2.7857741212437905
+MPI,4,Float32,512,0.145154067,0.30821900888706527
+MPI,9,Float32,768,0.403228874,0.37446461237297207
+MPI,16,Float32,1024,0.472109778,0.7581159256001119
+MPI,25,Float32,1280,0.951790282,0.7344587141589103
+MPI,36,Float32,1536,1.752771286,0.6891712350883411
+MPI,49,Float32,1792,2.917590174,0.6574586953394823
+MPI,64,Float32,2048,4.934124422,0.5803079301972792
+MPI,81,Float32,2304,9.376669704,0.43478800221157926
+TCP,1,Float32,256,0.01264368,2.6538501448945246
+TCP,4,Float32,512,0.01676833,16.00847884076709
+TCP,9,Float32,768,0.034800746,26.03305296961163
+TCP,16,Float32,1024,0.062671975,34.26545354602276
+TCP,25,Float32,1280,0.102954032,40.739579776729876
+TCP,36,Float32,1536,0.204707002,35.40551735499502
+TCP,49,Float32,1792,0.269937825,42.63637441696064
+TCP,64,Float32,2048,0.3658052,46.96452971144205
+TCP,81,Float32,2304,0.475091924,51.48725897517046
+
+MPI,1,Float64,256,0.002090059,2.675716490937975
+MPI,4,Float64,512,0.167346827,0.2673444335258694
+MPI,9,Float64,768,0.320509358,0.471109314692771
+MPI,16,Float64,1024,0.586005239,0.610769183470275
+MPI,25,Float64,1280,0.928163809,0.7531544107713282
+MPI,36,Float64,1536,1.611667861,0.7495089907981978
+MPI,49,Float64,1792,2.82393033,0.6792642895454625
+MPI,64,Float64,2048,5.173215466,0.553487777473266
+MPI,81,Float64,2304,8.260910867,0.49351258640084295
+TCP,1,Float64,256,0.009581393,3.502041091519782
+TCP,4,Float64,512,0.023808695,11.27468162366732
+TCP,9,Float64,768,0.041865372,21.640071990761246
+TCP,16,Float64,1024,0.074942948,28.654912907882945
+TCP,25,Float64,1280,0.351894368,11.919213211164552
+TCP,36,Float64,1536,0.517019701,14.018338755721805
+TCP,49,Float64,1792,0.491128477,23.434133256337322
+TCP,64,Float64,2048,0.678788217,25.309616097829227
+TCP,81,Float64,2304,0.879469254,27.81357144294211
diff --git a/benchmarks/MPI_benchmarks/strong_scaling/DaggerMPI_Strong_scale.jl b/benchmarks/MPI_benchmarks/strong_scaling/DaggerMPI_Strong_scale.jl
new file mode 100644
index 000000000..826625ecd
--- /dev/null
+++ b/benchmarks/MPI_benchmarks/strong_scaling/DaggerMPI_Strong_scale.jl
@@ -0,0 +1,65 @@
+using Dagger, MPI, LinearAlgebra
+using CSV, DataFrames, Logging
+disable_logging(LogLevel(2999))
+
+a = Dagger.accelerate!(:mpi)
+comm = a.comm
+rank = MPI.Comm_rank(comm)
+sz = MPI.Comm_size(comm)
+
+mpidagger_all_results = []
+
+# Define constants
+# You need to define the MPI workers before running the benchmark
+# Example: mpirun -n 4 julia --project benchmarks/DaggerMPI_Weak_scale.jl
+datatype = [Float32, Float64]
+datasize = 18000
+
+for T in datatype
+    #println("  Testing data type: $T")
+    if rank == 0
+        #blocksize = div(datasize, 4)
+        A = rand(T, datasize, datasize)
+        A = A * A' 
+        A[diagind(A)] .+= size(A, 1)
+        B = copy(A)
+        @assert ishermitian(B)
+        DA = distribute(A, Blocks(2000,2000))
+        DB = distribute(B, Blocks(2000,2000))
+    else 
+        DA = distribute(nothing, Blocks(2000,2000))
+        DB = distribute(nothing, Blocks(2000,2000))
+    end
+    
+    
+    LinearAlgebra._chol!(DA, UpperTriangular)
+    elapsed_time = @elapsed chol_DB = LinearAlgebra._chol!(DB, UpperTriangular)
+    
+    # Store results
+    result = (
+        procs = sz,
+        dtype = T,
+        size = datasize,
+        time = elapsed_time,
+        gflops = (datasize^3 / 3) / (elapsed_time * 1e9)
+    )
+    push!(mpidagger_all_results, result)   
+    
+
+end
+
+if rank == 0
+    #= Write results to CSV
+    mkpath("benchmarks/results")
+    if !isempty(mpidagger_all_results)
+        df = DataFrame(mpidagger_all_results)
+        CSV.write("benchmarks/results/DaggerMPI_Weak_scale_results.csv", df)
+        
+    end
+    =#
+    # Summary statistics
+    for result in mpidagger_all_results
+        println(result.procs, ",", result.dtype, ",", result.size, ",", result.time, ",", result.gflops)
+    end
+    #println("\nAll Cholesky tests completed!")
+end
\ No newline at end of file
diff --git a/benchmarks/MPI_benchmarks/strong_scaling/DaggerTCP_Strong_scale.jl b/benchmarks/MPI_benchmarks/strong_scaling/DaggerTCP_Strong_scale.jl
new file mode 100644
index 000000000..3813a07aa
--- /dev/null
+++ b/benchmarks/MPI_benchmarks/strong_scaling/DaggerTCP_Strong_scale.jl
@@ -0,0 +1,58 @@
+using Distributed
+using Dates
+
+all_results = []
+
+#Define constants
+addprocs(1)
+number_of_processes = [2, 4, 8, 16, 32, 64, 81]
+for target_workers in number_of_processes
+    current_workers = nworkers()
+    if current_workers < target_workers
+        addprocs(target_workers - current_workers)
+    elseif current_workers > target_workers
+        rmprocs(workers()[1:(current_workers - target_workers)])
+    end
+    @everywhere using Dagger, LinearAlgebra, Random, Test, Logging
+    @everywhere disable_logging(LogLevel(2999))
+
+    #Define constants
+    datatype = [Float32, Float64]
+    datasize = 18000
+    #blocksize = 4
+    
+    for T in datatype
+        #println("  Testing data type: $T")
+        
+        #blocksize = div(datasize, 4)
+        A = rand(T, datasize, datasize)
+        A = A * A' 
+        A[diagind(A)] .+= size(A, 1)
+        B = copy(A)
+        @assert ishermitian(B)
+        DA = distribute(A, Blocks(2000,2000))
+        DB = distribute(B, Blocks(2000,2000))
+        
+        
+        LinearAlgebra._chol!(DA, UpperTriangular)
+        elapsed_time = @elapsed chol_DB = LinearAlgebra._chol!(DB, UpperTriangular)
+        
+        # Store results
+        result = (
+            procs = nworkers(),
+            dtype = T,
+            size = datasize,
+            time = elapsed_time,
+            gflops = (datasize^3 / 3) / (elapsed_time * 1e9)
+        )
+        push!(all_results, result)
+                
+    end
+end
+
+# Summary statistics
+for result in all_results
+    println(result.procs, ",", result.dtype, ",", result.size, ",", result.time, ",", result.gflops)
+end
+#println("\nAll Cholesky tests completed!")
+
diff --git a/benchmarks/MPI_benchmarks/strong_scaling/strong_scale.sh b/benchmarks/MPI_benchmarks/strong_scaling/strong_scale.sh
new file mode 100755
index 000000000..41db1405a
--- /dev/null
+++ b/benchmarks/MPI_benchmarks/strong_scaling/strong_scale.sh
@@ -0,0 +1,24 @@
+#!/bin/bash
+
+set -eux
+
+CMD="benchmarks/MPI_benchmarks/strong_scaling/DaggerMPI_Strong_scale.jl"
+BENCHMARK_NAME="DaggerMPI_Strong_scale"
+OUTPUT_FILE="benchmarks/MPI_benchmarks/scaling_results/strong_scale_results.csv"
+
+# Create the CSV header if the file doesn't exist.
+if [ ! -f "$OUTPUT_FILE" ]; then
+    echo "benchmark,procs,dtype,size,time,gflops" > "$OUTPUT_FILE"
+fi
+
+for procs in 2 4 8 16 32 64 81; do
+    echo "Running $BENCHMARK_NAME with $procs processes..."
+
+    julia --project -e "using MPI; run(\`\$(mpiexec()) -np $procs julia --project $CMD\`)" | sed "s/^/$BENCHMARK_NAME,/" >> "$OUTPUT_FILE"
+done
+
+# RUn the TCP benchmark
+DAGGERTCP_NAME="DaggerTCP_Strong_scale"
+julia --project benchmarks/MPI_benchmarks/strong_scaling/DaggerTCP_Strong_scale.jl | sed "s/^/$DAGGERTCP_NAME,/" >> "$OUTPUT_FILE"
+
+echo "All benchmarks are complete. Results are in $OUTPUT_FILE"
\ No newline at end of file
diff --git a/benchmarks/MPI_benchmarks/weak_scaling/DaggerMPI_Weak_scale.jl b/benchmarks/MPI_benchmarks/weak_scaling/DaggerMPI_Weak_scale.jl
new file mode 100644
index 000000000..2b6a366a9
--- /dev/null
+++ b/benchmarks/MPI_benchmarks/weak_scaling/DaggerMPI_Weak_scale.jl
@@ -0,0 +1,66 @@
+using Dagger, MPI, LinearAlgebra
+using CSV, DataFrames, Logging
+disable_logging(LogLevel(2999))
+
+a = Dagger.accelerate!(:mpi)
+comm = a.comm
+rank = MPI.Comm_rank(comm)
+sz = MPI.Comm_size(comm)
+
+mpidagger_all_results = []
+
+# Define constants
+# You need to define the MPI workers before running the benchmark
+# Example: mpirun -n 4 julia --project benchmarks/DaggerMPI_Weak_scale.jl
+datatype = [Float32, Float64]
+datasize = 256 * floor(Int, sqrt(sz))
+
+for T in datatype
+    if rank == 0
+        #blocksize = div(datasize, 4)
+        A = rand(T, datasize, datasize)
+        A = A * A' 
+        A[diagind(A)] .+= size(A, 1)
+        B = copy(A)
+        @assert ishermitian(B)
+        DA = distribute(A, Blocks(256,256))
+        DB = distribute(B, Blocks(256,256))
+    else
+        DA = distribute(nothing, Blocks(256,256))
+        DB = distribute(nothing, Blocks(256,256))
+    end
+    
+    
+    LinearAlgebra._chol!(DA, UpperTriangular)
+    elapsed_time = @elapsed chol_DB = LinearAlgebra._chol!(DB, UpperTriangular)
+    
+    # Store results
+    result = (
+        procs = sz,
+        dtype = T,
+        size = datasize,
+        time = elapsed_time,
+        gflops = (datasize^3 / 3) / (elapsed_time * 1e9)
+    )
+    push!(mpidagger_all_results, result)   
+    
+
+end
+
+if rank == 0
+    #= Write results to CSV
+    mkpath("benchmarks/results")
+    if !isempty(mpidagger_all_results)
+        df = DataFrame(mpidagger_all_results)
+        CSV.write("benchmarks/results/DaggerMPI_Weak_scale_results.csv", df)
+        
+    end
+    =#
+    # Summary statistics
+    for result in mpidagger_all_results
+        println(result.procs, ",", result.dtype, ",", result.size, ",", result.time, ",", result.gflops)
+    end
+    #println("\nAll Cholesky tests completed!")
+end
+a.comm.finalize()
+
diff --git a/benchmarks/MPI_benchmarks/weak_scaling/DaggerTCP_Weak_scale.jl b/benchmarks/MPI_benchmarks/weak_scaling/DaggerTCP_Weak_scale.jl
new file mode 100644
index 000000000..7552d0138
--- /dev/null
+++ b/benchmarks/MPI_benchmarks/weak_scaling/DaggerTCP_Weak_scale.jl
@@ -0,0 +1,59 @@
+using Distributed
+using Dates
+
+all_results = []
+
+#Define constants
+addprocs(1)
+number_of_processes = [1, 4, 9, 16, 25, 36, 49, 64, 81]
+for target_workers in number_of_processes
+    current_workers = nworkers()
+    if current_workers < target_workers
+        addprocs(target_workers - current_workers)
+    elseif current_workers > target_workers
+        rmprocs(workers()[1:(current_workers - target_workers)])
+    end
+    #println("\n nprocs: $(nprocs()), nworkers: $(nworkers()) ")
+    @everywhere using Dagger, LinearAlgebra, Random, Test, Logging
+    @everywhere disable_logging(LogLevel(2999))
+
+    #Define constants
+    datatype = [Float32, Float64]
+    datasize = 256 * floor(Int, sqrt(nworkers()))
+    #blocksize = 4
+    
+    for T in datatype
+        #println("  Testing data type: $T")
+        
+        #blocksize = div(datasize, 4)
+        A = rand(T, datasize, datasize)
+        A = A * A' 
+        A[diagind(A)] .+= size(A, 1)
+        B = copy(A)
+        @assert ishermitian(B)
+        DA = distribute(A, Blocks(256, 256))
+        DB = distribute(B, Blocks(256,256))
+        
+        
+        LinearAlgebra._chol!(DA, UpperTriangular)
+        elapsed_time = @elapsed chol_DB = LinearAlgebra._chol!(DB, UpperTriangular)
+        
+        # Store results
+        result = (
+            procs = nworkers(),
+            dtype = T,
+            size = datasize,
+            time = elapsed_time,
+            gflops = (datasize^3 / 3) / (elapsed_time * 1e9)
+        )
+        push!(all_results, result)
+                
+    end
+end
+
+# Summary statistics
+for result in all_results
+    println(result.procs, ",", result.dtype, ",", result.size, ",", result.time, ",", result.gflops)
+end
+#println("\nAll Cholesky tests completed!")
+
diff --git a/benchmarks/MPI_benchmarks/weak_scaling/weak_scale.sh b/benchmarks/MPI_benchmarks/weak_scaling/weak_scale.sh
new file mode 100755
index 000000000..52dcdb6bb
--- /dev/null
+++ b/benchmarks/MPI_benchmarks/weak_scaling/weak_scale.sh
@@ -0,0 +1,25 @@
+#!/bin/bash
+
+set -eux
+
+CMD="benchmarks/MPI_benchmarks/weak_scaling/DaggerMPI_Weak_scale.jl"
+BENCHMARK_NAME="DaggerMPI_Weak_scale"
+OUTPUT_FILE="benchmarks/MPI_benchmarks/scaling_results/weak_scale_results.csv"
+
+
+# Create the CSV header if the file doesn't exist.
+if [ ! -f "$OUTPUT_FILE" ]; then
+    echo "benchmark,procs,dtype,size,time,gflops" > "$OUTPUT_FILE"
+fi
+
+for procs in 1 4 9 16 25 36 49 64 81; do
+    echo "Running $BENCHMARK_NAME with $procs processes..."
+
+    julia --project -e "using MPI; run(\`\$(mpiexec()) -np $procs julia --project $CMD\`)" | sed "s/^/$BENCHMARK_NAME,/" >> "$OUTPUT_FILE"
+done
+
+# Run the TCP benchmark
+DAGGERTCP_NAME="DaggerTCP_Weak_scale"
+julia --project benchmarks/MPI_benchmarks/weak_scaling/DaggerTCP_Weak_scale.jl | sed "s/^/$DAGGERTCP_NAME,/" >> "$OUTPUT_FILE"
+
+echo "All benchmarks are complete. Results are in $OUTPUT_FILE"
\ No newline at end of file
diff --git a/benchmarks/results/DaggerMPI_Weak_scale_results.csv b/benchmarks/results/DaggerMPI_Weak_scale_results.csv
deleted file mode 100644
index 19187642b..000000000
--- a/benchmarks/results/DaggerMPI_Weak_scale_results.csv
+++ /dev/null
@@ -1,5 +0,0 @@
-procs,dtype,size,blocksize,time,gflops
-4,Float32,8,4,0.011709834,1.457464441141238e-5
-4,Float32,16,4,0.039333791,3.471146051834498e-5
-4,Float64,8,4,0.005815791,2.934539199683528e-5
-4,Float64,16,4,0.022347208,6.109637200912675e-5
diff --git a/benchmarks/weak_scale.sh b/benchmarks/weak_scale.sh
deleted file mode 100644
index 2b886ff48..000000000
--- a/benchmarks/weak_scale.sh
+++ /dev/null
@@ -1,23 +0,0 @@
-#!/bin/bash
-
-# Define the output CSV file
-OUTPUT_FILE="weak_scale_results.csv"
-
-# Check if the CSV file exists. If not, create it with a header.
-if [ ! -f "$OUTPUT_FILE" ]; then
-    echo "benchmark,procs,dtype,size,blocksize,time,gflops" > "$OUTPUT_FILE"
-fi
-
-# --- Run the DaggerTCP benchmark ---
-echo "Running DaggerTCP_Weak_scale.jl..."
-
-# Run the Julia script and use 'sed' to prepend the benchmark name to each line of output.
-julia --project=. benchmarks/DaggerTCP_Weak_scale.jl | sed 's/^/DaggerTCP_Weak_scale,/' >> "$OUTPUT_FILE"
-
-# --- Run the DaggerMPI benchmark ---
-echo "Running DaggerMPI benchmark..."
-
-# Run the MPI command and use 'sed' to prepend the benchmark name to each line of output.
-mpiexec -n 4 julia --project=. -e 'include("benchmarks/mpi_dagger_bench.jl")' | sed 's/^/DaggerMPI_Weak_scale,/' >> "$OUTPUT_FILE"
-
-echo "Weak scale benchmarks complete. Results are in $OUTPUT_FILE"
\ No newline at end of file
diff --git a/src/mpi.jl b/src/mpi.jl
index fd19cb31c..d07b7ffdd 100644
--- a/src/mpi.jl
+++ b/src/mpi.jl
@@ -811,6 +811,7 @@ accel_matches_proc(accel::MPIAcceleration, proc::MPIClusterProc) = true
 accel_matches_proc(accel::MPIAcceleration, proc::MPIProcessor) = true
 accel_matches_proc(accel::MPIAcceleration, proc) = false
 
+#=
 function distribute(A::AbstractArray{T,N}, dist::Blocks{N}, accel::MPIAcceleration) where {T,N}
     comm = accel.comm
     rank = MPI.Comm_rank(comm)
@@ -821,8 +822,8 @@ function distribute(A::AbstractArray{T,N}, dist::Blocks{N}, accel::MPIAccelerati
 
     return DB
 end
+=#
 
-#=
 distribute(A::AbstractArray{T,N}, dist::Blocks{N}, root::Int; comm::MPI.Comm=MPI.COMM_WORLD) where {T,N} =
     distribute(A::AbstractArray{T,N}, dist; comm, root) 
 distribute(A::AbstractArray, root::Int; comm::MPI.Comm=MPI.COMM_WORLD) = distribute(A, AutoBlocks(), root; comm)
@@ -996,4 +997,3 @@ function Base.collect(x::Dagger.DMatrix{T};
         end
     end
 end
-=#

From 02edac89746b645f97ff6c35647a0c3c1ff1bca0 Mon Sep 17 00:00:00 2001
From: Felipe Tome <tomefelipe0@usp.br>
Date: Tue, 2 Sep 2025 09:26:47 -0300
Subject: [PATCH 7/8] Profiler: Small changes to accomodate MPI

---
 lib/TimespanLogging/src/core.jl |  2 +-
 src/Dagger.jl                   |  2 +-
 src/mpi.jl                      | 25 ++++++++++++++++++++++++-
 src/utils/logging.jl            | 14 +++++++++-----
 4 files changed, 35 insertions(+), 8 deletions(-)

diff --git a/lib/TimespanLogging/src/core.jl b/lib/TimespanLogging/src/core.jl
index 815345671..963c67e3c 100644
--- a/lib/TimespanLogging/src/core.jl
+++ b/lib/TimespanLogging/src/core.jl
@@ -263,7 +263,7 @@ function get_logs!(ml::MultiEventLog; only_local=false)
                 lock(event_log_lock) do
                     sublogs = Dict{Symbol,Vector}()
                     for name in keys(mls.consumers)
-                        sublogs[name] = mls.consumer_logs[name]
+                        sublogs[name] = copy(mls.consumer_logs[name])
                         mls.consumer_logs[name] = []
                     end
                     sublogs
diff --git a/src/Dagger.jl b/src/Dagger.jl
index bab83b662..f3c5b3cd4 100644
--- a/src/Dagger.jl
+++ b/src/Dagger.jl
@@ -81,9 +81,9 @@ include("argument.jl")
 include("queue.jl")
 include("thunk.jl")
 include("utils/fetch.jl")
+include("memory-spaces.jl")
 include("utils/logging.jl")
 include("submission.jl")
-include("memory-spaces.jl")
 
 # Chunk utilities
 include("utils/chunks.jl")
diff --git a/src/mpi.jl b/src/mpi.jl
index fd19cb31c..52f858dbd 100644
--- a/src/mpi.jl
+++ b/src/mpi.jl
@@ -463,7 +463,6 @@ end
 
 function recv_yield(comm, src, tag)
     rank = MPI.Comm_rank(comm)
-    #Core.println("[rank $(MPI.Comm_rank(comm))][tag $tag] Starting recv from [$src]")
 
     # Ensure no other receiver is waiting
     our_event = Base.Event()
@@ -822,6 +821,30 @@ function distribute(A::AbstractArray{T,N}, dist::Blocks{N}, accel::MPIAccelerati
     return DB
 end
 
+function get_logs!(accel::MPIAcceleration, ml::TimespanLogging.MultiEventLog; only_local=false)
+    mls = TimespanLogging.get_state(ml)
+    sublogs = lock(TimespanLogging.event_log_lock) do
+        sublogs = Dict{Symbol,Vector}()
+        for name in keys(mls.consumers)
+            sublogs[name] = copy(mls.consumer_logs[name])
+            mls.consumer_logs[name] = []
+        end
+        sublogs
+    end
+    rank = MPI.Comm_rank(accel.comm)
+    if rank == 0 
+        logs = Dict{Int, Dict{Symbol,Vector}}()
+    end
+
+    logsvec = MPI.gather(sublogs, accel.comm)
+    if rank == 0
+        for (rnk, sublogs) in enumerate(logsvec)
+            logs[rnk] = sublogs
+        end
+        return logs
+    end
+end
+
 #=
 distribute(A::AbstractArray{T,N}, dist::Blocks{N}, root::Int; comm::MPI.Comm=MPI.COMM_WORLD) where {T,N} =
     distribute(A::AbstractArray{T,N}, dist; comm, root) 
diff --git a/src/utils/logging.jl b/src/utils/logging.jl
index d30632f0f..a8a45ca61 100644
--- a/src/utils/logging.jl
+++ b/src/utils/logging.jl
@@ -19,10 +19,10 @@ Extra events:
 - `tasktochunk::Bool`: Enables reporting of DTask-to-Chunk mappings
 - `profile::Bool`: Enables profiling of task execution; not currently recommended, as it adds significant overhead
 """
-function enable_logging!(;metrics::Bool=true,
+function enable_logging!(;metrics::Bool=false,
                           timeline::Bool=false,
-                          all_task_deps::Bool=false,
-                          tasknames::Bool=true,
+                          all_task_deps::Bool=true,
+                          tasknames::Bool=false,
                           taskfuncnames::Bool=false,
                           taskdeps::Bool=true,
                           taskargs::Bool=false,
@@ -105,7 +105,11 @@ of the outer `Dict` is keyed on worker ID, so `logs[1]` are the logs for worker
 Consider using `show_logs` or `render_logs` to generate a renderable display of
 these logs.
 """
-fetch_logs!() = TimespanLogging.get_logs!(Dagger.Sch.eager_context())
+
+
+get_logs!(accel::DistributedAcceleration, ml; only_local=only_local) = TimespanLogging.get_logs!(ml; only_local=only_local)
+
+fetch_logs!() = get_logs!(current_acceleration(), Dagger.Sch.eager_context().log_sink; only_local=false)
 
 # Convenience macros to reduce allocations when logging is disabled
 macro maybelog(ctx, ex)
@@ -117,8 +121,8 @@ macro maybelog(ctx, ex)
 end
 
 function logs_event_pairs(f, logs::Dict)
-    running_events = Dict{Tuple,Int}()
     for w in keys(logs)
+        running_events = Dict{Tuple,Int}()
         for idx in 1:length(logs[w][:core])
             kind = logs[w][:core][idx].kind
             category = logs[w][:core][idx].category

From e08993e8d44a09bc7c40fa2436ee5417c3fc203a Mon Sep 17 00:00:00 2001
From: yanzin00 <ylsg0303@gmail.com>
Date: Tue, 2 Sep 2025 14:34:55 -0300
Subject: [PATCH 8/8] Profiling test

---
 Project.toml                           |   4 ++--
 src/mpi.jl                             |   5 +++--
 test/profiling/profiling-test.jl       |  21 +++++++++++++++++++++
 test/profiling/results/gantt_chart.png | Bin 0 -> 19633 bytes
 4 files changed, 26 insertions(+), 4 deletions(-)
 create mode 100644 test/profiling/profiling-test.jl
 create mode 100644 test/profiling/results/gantt_chart.png

diff --git a/Project.toml b/Project.toml
index e615987e1..ba671bb37 100644
--- a/Project.toml
+++ b/Project.toml
@@ -5,6 +5,7 @@ version = "0.18.14"
 [deps]
 AbstractFFTs = "621f4979-c628-5d54-868e-fcf4e3e8185c"
 Adapt = "79e6a3ab-5dfb-504d-930d-738a2a938a0e"
+DataFrames = "a93c6f00-e57d-5684-b7b6-d8193f3e46c0"
 DataStructures = "864edb3b-99cc-5e75-8d2d-829cb0a9cfe8"
 Distributed = "8ba89e20-285c-5b6f-9357-94700520ee1b"
 DistributedNext = "fab6aee4-877b-4bac-a744-3eca44acbb6f"
@@ -15,6 +16,7 @@ MacroTools = "1914dd2f-81c6-5fcd-8719-6d5c9610ff09"
 MemPool = "f9f48841-c794-520a-933b-121f7ba6ed94"
 MetricsTracker = "9a9c6fec-044d-4a27-aa18-2b01ca4026eb"
 OnlineStats = "a15396b6-48d5-5d58-9928-6d29437db91e"
+Plots = "91a5bcdd-55d7-5caf-9e0b-520d859cae80"
 PrecompileTools = "aea7be01-6a6a-4083-8856-8a6e6704d82a"
 Preferences = "21216c6a-2e73-6563-6e65-726566657250"
 Profile = "9abbd945-dff8-562f-b5e8-e1ebf5ef1b79"
@@ -32,12 +34,10 @@ UUIDs = "cf7118a7-6976-5b1a-9a39-7adc72f591a4"
 
 [weakdeps]
 Colors = "5ae59095-9a9b-59fe-a467-6f913c188581"
-DataFrames = "a93c6f00-e57d-5684-b7b6-d8193f3e46c0"
 Distributions = "31c24e10-a181-5473-b8eb-7969acd0382f"
 GraphViz = "f526b714-d49f-11e8-06ff-31ed36ee7ee0"
 JSON3 = "0f8b85d8-7281-11e9-16c2-39a750bddbf1"
 JuMP = "4076af6c-e467-56ae-b986-b466b2749572"
-Plots = "91a5bcdd-55d7-5caf-9e0b-520d859cae80"
 PythonCall = "6099a3de-0909-46bc-b1f4-468b9a2dfc0d"
 
 [extensions]
diff --git a/src/mpi.jl b/src/mpi.jl
index 8a33f24c6..d151bef91 100644
--- a/src/mpi.jl
+++ b/src/mpi.jl
@@ -810,7 +810,7 @@ accel_matches_proc(accel::MPIAcceleration, proc::MPIClusterProc) = true
 accel_matches_proc(accel::MPIAcceleration, proc::MPIProcessor) = true
 accel_matches_proc(accel::MPIAcceleration, proc) = false
 
-#=
+
 function distribute(A::AbstractArray{T,N}, dist::Blocks{N}, accel::MPIAcceleration) where {T,N}
     comm = accel.comm
     rank = MPI.Comm_rank(comm)
@@ -845,7 +845,7 @@ function get_logs!(accel::MPIAcceleration, ml::TimespanLogging.MultiEventLog; on
         return logs
     end
 end
-
+#=
 distribute(A::AbstractArray{T,N}, dist::Blocks{N}, root::Int; comm::MPI.Comm=MPI.COMM_WORLD) where {T,N} =
     distribute(A::AbstractArray{T,N}, dist; comm, root) 
 distribute(A::AbstractArray, root::Int; comm::MPI.Comm=MPI.COMM_WORLD) = distribute(A, AutoBlocks(), root; comm)
@@ -1019,3 +1019,4 @@ function Base.collect(x::Dagger.DMatrix{T};
         end
     end
 end
+=#
\ No newline at end of file
diff --git a/test/profiling/profiling-test.jl b/test/profiling/profiling-test.jl
new file mode 100644
index 000000000..5cc83c30a
--- /dev/null
+++ b/test/profiling/profiling-test.jl
@@ -0,0 +1,21 @@
+using Dagger, MPI, Plots, TimespanLogging, DataFrames, LinearAlgebra
+
+Dagger.accelerate!(:mpi)
+A = randn(Blocks(256, 256), 1024, 1024)
+B = randn(Blocks(256, 256), 1024, 1024)
+C = zeros(Blocks(256, 256), 1024, 1024)
+
+using Pkg
+Pkg.precompile()
+
+Dagger.enable_logging!()
+LinearAlgebra.BLAS.set_num_threads(1)
+@time LinearAlgebra.generic_matmatmul!(C, 'N', 'N', A, B, LinearAlgebra.MulAddMul(1.0, 0.0))
+logs = Dagger.fetch_logs!()
+Dagger.disable_logging!()
+rank = MPI.Comm_rank(MPI.COMM_WORLD)
+if rank == 0
+    p = Dagger.render_logs(logs, :plots_gantt)
+    savefig(p, "test/profiling/results/gantt_chart.png")
+end
+MPI.Finalize()
\ No newline at end of file
diff --git a/test/profiling/results/gantt_chart.png b/test/profiling/results/gantt_chart.png
new file mode 100644
index 0000000000000000000000000000000000000000..9b5394ee6b8f4d05cacb86152e6089106e795ad8
GIT binary patch
literal 19633
zcmdVC2{hI1zc;LTHz8w@F_ny!sf^hXCG(IFWu8K0o*K4<BxT5yDHW2;nJZDqJcZC;
zn?)fr?`Plt^FHf&&hxzMyyso(taaXf->X`+?fu)=@4CL<&-C3v8fr?rcd+cBqN3V;
zR#`!difW@i71f3ZgpK%{)eAvQ_-(7Hijo4=I_1Bl^5>7Js5q(4D#+`2#832j8ZpeR
zZ<}snfBp3%cl0ez!mT9kK<+vV_Vgf${)YwzvA&N!Pk+u76{~+K+MaDX6d60uxczQy
z>_blWB+j6(^EngcGs|Wbla9TY^dihUJY_g!ygvI3iHJ;He9+a{kir{`_dm*LIIso3
zkI>(urJ~xqTb@8gb?*-6W-6*Pr)hDWsa%8&R5w~^NmNvCtqDXbs>`CAx$t8w|Mv6+
zui((o4)^WCQo$+HKJTm^){~cnzB49i@XlV^D7tf}|4w5S0VcoPCeFxnj61f3eQa~*
z5-unyk#uo!@xAa{>rp+~H0R5Q4+;YTZ$qls|L2$fkFVra#ZIalT?6j}c6!f^rF9E2
z>~Q@0hAX;WH_`qr*;&H=OH!vxN5(~;ig1I}pzTe~8dt29_Yg_Mv%ckDzI=I|X6Kmk
z$JxfU;Cg?V@GFx_KXP48y0+ESfPc!XUr!QEhW|KUu}DiwPOfQwz(L!5<iLThFJJPL
zlXZ9_db^8-4F58glbYn#pDNKv9X_n?6;WT1kzxA$=|paxNR+aIrRDni9!-WlLFNKX
z>*e#EqgS*|q_Be4mlzcL$~^OOtg`pAu+*6!S5Z;1P|?+mw3MKs2}w%&TXI3iz`)MR
zswG}4Zgk<dl%k@d`&55qy<J_M^Kp@>*~$9(>7(f{c(r-QLhrp88{0wsvFG!7y$csQ
z^PX3=Jr|?lusmXQftRnWZ2$J!WTo-3iQ~sJe0}UoTwU5rY@&t8g?)wPole#a|6lI+
ze|%H^m+kRi|MZ%x<%*79USDa9Kl$w0v*O}nU0vP25?2vX(Wi%He3$Z{K7FbZEo5nF
zdGO#t^+ef&q`mw0;aU4wS?P(kwzhx%{PCI{Nj6)=V{~+sE{O7MSy@?0FIlhIPoF=3
ze)sMsd%5qjTOc)?{ne}6xfm4F($ZWfdm@dq^|ox;Qe9o$-`{`e(4o+|^jEJM8yh?A
zr#dn(oH=vm<9)WQmoNGF`0y44E_?Cb+S(wYZ!v?;i>XRsJalJ^9QsC>(sfF%{j5=!
zTa9R_ncquwW5_nE^66o<_&08ovFYhYxOjwwgm`&Jx=j3a)!5|xd^9wgP5f6C3Ef4G
z1K-}={`uoazu)pzC8dw$-t%-sA(IMe(+>o;dPi&Pk-pOTzmvT*9I{_4{nt;r42_Je
zRME(NsIG3Q!j4*7TeItYnXHtTo4YhSnySH@-^fcB)Kla*MJ6*cFwA~?w}~zDjraU7
zB@W-&7A1~`_>&?$JcFtJ8Vq8#?JuxMdx&a@vVC~%H*em|_j_mCb-k*ns5q?tq&??6
z@l$u66+Zo~Tet2|vt`(e9zFW0v9Z6%G4Yq@2CAeZ2K)q^&ZFLc?a9{q`uarTMw$48
zgiFT84vvo5@hr5o)4h(BtBb>lhK2T?Q|0sK$Gb(M9qsLn^z}Vf7JmCK|GiY|c6Gcn
z3wI#Y_5R(v%4g3e2R?fAXuxMiwWB2|iBs~m*uK4cc@7=IxfuUq@^o&pcYX{vCfgXB
zBQrgHw8Q_kzCecqJ3D*j>fheE@h+8f=S<DaQd3j4wY6OZ#E%|5%FjPO(voUBnP=71
z|N6@9Uk|A$mwu42bH|R>*4Cx@scidwqSnn=`jOK~rS4OH%acVNbhnu3=(uSKxbZry
zKY#v|aQOP7Q`^-ofcWm`?|b*|v1A^WmX?;2Tc4_2KSaXrJRfsB?b)+C#(4j8=H@(H
z=H$A_*k%3w)X%Y^_|>L&b^jOpzxVcu9KycvoU!zxzeB^ZHqvsSz@f0PaI&|kD_-Wr
z3EYK+wbf-o<GoZ=ZTWR4-;Z}?FE1=O6|Yx1iO0!Yc~468Ut4^nE{m;WVrx4VC1}__
zl#!Xa{I}Qfl9AEG#Dq@omW}ehzU7^azDuLe=cfiLU4|QPZrWyVZ_kqXv9&c<DU7|g
zw)WVuV@Hl0QHc`RzI(T-sw&$_=fO0UXv@!!<q7FoSy!#CJ$_&H<HG(L@SSJlBBi_t
z4i0`cv4bB63^%Qzx3@Hhy0`FZ>b8xWHhKS@=>Du_BIjIel&tZI?Ci_@htd%m*6;EL
zd)=H9cS&2~j;<e_yt;HoqA-U+v6kG^)N`udHj-07P_W}(+CC9W1x3ZVk(R3Z`ugtf
zi>_K)T6Bp`5~89Lomsuvm1`M=c_;kWR%-M_amrU#R!saBEhc*k94i)|-A^Dcjf_0t
zI{j2DJulA%+wk1E;G!b;ix)2{D-*Z|GqWqa!d0)bvxg}Kas*Ztd(DlxG}xJ$X&V{6
zOs#5&lNjBA%57pYz%2B~_256<P3T0cDqrNev{p-@!7aC5FY<RVlP_!wAol0)e$LXX
zA3#jjD9bP*7z<|6kx(+Y!<DmI+S=NBdc5A<+JY6;jAPih&vR{Mky&4JsvrC6mkchu
zF+nO(#@ns^g=Xm7E*hFdIe$NVOnv>mTs#5-6M-Cl(|`Z|!qzrBOz3^Px;)?4*Joni
zf9K9t5fKqKHn)i{zfDyv3Dkk7Idr<ve8tjrGJY;w(3hX0757hDGPSl==GgVq>4bqg
zmCa?b!kqooAK$)BQq0^mX+R!-jRjFtyKlL?jl<`%jScSgr(uIw9ll6qo)W3M3fz)S
zPql1ZT?;G|r>CbY*Vnw8p2&Rv{+&dtuHJ+*f=YKrL7|!LgXy)lN>Xt3kDi{M;hr6;
z`}Xa_dAT1Hl&r+c!opJOp_}>js}b8rMHGi1oG|Q*BjL*Ia(*v6Wj+54@?Ur*J+tGy
zSWZq3%0i)mnW^cI!P-Zai$ig$apH<+&PYm0wQY}%h-l9-Q)&p%H!xUQTuhMhj_N<a
zLz*4$ngT+o<J^y{M+p$KGOG0RH8P6V;p@w_P%$#vpWrX${!6EE!Dz>h9Y22jSer>)
z-?i^J4-b!df0^f_L#o`QPv*z9wcGOZMGMwY@ULCFCgnEqB0W7QBt-j(z92up_tNYU
zUkzp|s@POr>QLw6ukQVx!_O1_3@Ut1a+!C&yof!gJ)Y;c>P16CL;Q4O!={q!qbcGY
zA3s`E2Q$u2f5|Zuqsia8b?eaZu$84HUH}DKK}o62eO%6K)_VHeJA=%gH`mM@92}mj
zC5*HL>}39n^XWKHF*~w6RhjLj6!<VNFE28Z(f905E>guU(Zh$I=M=mtEzLHmG%g_L
zHOZz<1x&R)Z>o#rAFYwUy>+s$^n&N1$g1!5{bd(L-tXSMyYDOIF{0uW$?>zoclp`*
zn3SJe{i&#|Q#!qJKVt=#XGcZ+*L+-DW;SfvYVG#;xWx{c<}5=AvWRws(WOg~-Zy7o
zJz?SJ&m3)gZdb_6$asWaM^!<AH0BUr`Om{yl#lP+xDowfwRZcLSy`8g91=R$?%%(k
zA)!G>e5M+AhQ`Cgqq#dfsM^$b;d@~0q>rpW*3LGRF323+lv&8AxrCRB%0noNk;KHr
z1W<G}EnqxpZrU=Wx5C$(^<~<zJ9qB5|N7cuwt<Q&o8Cx@`acI||Lf7pe*#%kE~ci#
zeFIf<$=b?HQ$_}#mp&)$<Jed_BHAj}&-HWU<Hs*Fc%@}z8X6i3+)lXJo4C3LSeEJw
z6uXWKDXwOQrwp22E4H*s*D=;TsKd(}r0~+7fnfXdr&Xrgqk2Y0Mmp48aj7`feS3ND
zh3+PBndY45d=L@UIr`;=o~|aB5bulPYd_C;EeVQ<ybC{2c~_yMx;ox_KA4Yx+|G{m
zi~Tvyq~PF;`ns`$bfZ;)X}Y@H={kij!w>7~xC4lKT3Ws{LuM#E!mr;fG?shcy0cX~
zSW8s&Ze9I)fem-~%R;@?O*ffub8hx%NPGTV&UYz-{TXj?wdo!r(17c<?^%XLBw}(v
zKtN_@W+%0$Crw6X!G0|?ExUn=R0Fe*_gjPL`>wxym7m|)*ho|gwDOvLk*`EEH&>W8
zF`<TX6ms6J>GSzIOIGw5S#j}|rMVwwA9Gh$J`XzA)zskqzvQG&{`?sE_is%Y#|0Xe
z!6S6nh^McfQ^8uqCcb^ZHP}-S7{(E8XgE{i=K7p<_wGRViIMR5cm_7M?oQUl*!Rhr
z{~IOxZ?}v7Uu-%9{;l6%T`IM;v)j(K@n%v+#<^q--ox7i-ecRvoIgX@6QlrKjRy)v
z9W_vLZm!n+AI2SudU|?ZUL|Aq3_7~HLKL{k)@TO$0($rLbaiXV&TM)0=DAjX!<Bg~
zdT5D!{QL*$w)X}0w~me3_HD`Bvm-!EOsq~bTsi-0Z{e^3=%(nif?Lyn$n|J_1+QOo
zlFlc}CNvEvO1Z0@bRGN@?jyS%Cbz~(vhOP?I2}lR^X5%9DYx0#+4JYm^N?16WB@xP
zqY|T{I+ITaUa7hR)Y{hFy$BR1DJg99#tE%;*2%&mEi|;jD$(~$*btdqVApk@+FsQ(
z=MAc9R8*9YtelL@rH_1Qu_dT5<=*a&j*i~m%fHr>c=>pF@Am)Qw2k_Nq$G;9+h}X`
z*RMVc)88c=`zfeb+155AEG!K4B0D=fx8>8Pk(I?6tH$^i8DV@hMY}EEdkXA^8xu13
z&&|&dlzU6a7-?vrxNnk@k|MV^H#f(}$Ac}Pd074U5R|ceKlJ;|A_bnJk2>_1EjCCD
ze13fF^hcvTd-ec{%}xV&p%z4>0+0bIye=&4lsphvburictb@a=prD{%UR$a6>+4V+
z*C)OlL+MWW7wiR6KY8-xzbMh%%*;+2nx;>mnsfB6tcDjB77i%ge^JnsAmt9MT%xj(
z>c%r`ATD8H^>gP~B(J~7wfJy%&xKb;M}&nBlh7uCU<0bYTQ{Bn*1+YrwrX|M;3X!y
z^OUll<LEjcP6zXHb#;}begHUNZehX5#6(AY2)OP$-}nCgd&mJ^qQ{Rvq|LqBE8gHM
zAQUZieMAF`e#p^F`=WutE8}u6P&`%%2ObhHLokip%27EvldQOZ3V|;`Xh+ZT{FFad
zwydm-Nq8644I6-n^@X1_!otD_4jixuNlyO$LNk?`U0Rv2IQl&CnOZ`IYfV)kO_5!f
znyXbf?H@3#OO<|?K92dV{Qd~g8ygcN*7**6uD*U8`;qh@A|e71=i9e$;1I2;xB;XG
z_0hrurS93Iy<fP&p<Kp01&IVj%|IHCR~Z?$KknI!ms&MFnPn0?^qWKdiL}j4gAG*1
z+Fv{Mt*=~3Hh8>;XliOY)R-`imTzYElT1#NJR&C6(brdw+t}LrXE@Q{GH;!+2{f%G
z=M`|>I=aC1j8WQs`(hqGJnr=EZEkKZuwh_8K-$x%*C%`CY9Ad=PEIC00C1H3$W%xR
zc$%!CO!)3}VwT#jt-H6EnSo(sWV)K!q<PbUGxr_?W9(#JEO~e?ZASo+FLJE(f!=ek
zglJ-N5={*u;Qi8)7n@7VFpC1Wrdc1ujx9n`7Y;J1@CHLTq9qbm{fU}m&+U1GSF-EZ
z&m8#^PkMg`KY_Brup=}y)Fj_{!5=Ue4LR1|1e+8vk4eygfu259{K$zD3!lOdNV8AH
zJpa+YvNWCzV2AGR<m%edCn7EF0|pc=bZN)Vod-yyfPiwaOJieWKR-Vdo2G(Rrig@u
zz8tfU%yAb4m}Wer+1P}P%N8gYSCZiBe<yoeM;mROV@yp=jU;snuQ$uSePW%elRNpR
zJ?;oFjVIP`Tywuh6_U1gBu8Iiu5Lp?Jt6k}moFc{^}l@Cd*q8&{t91LXXkwmxwV*O
zeaY*;zAl2Qb=oJ2SgG0A*j&G!Z%~TDQ&2EB^Xyx(%W%K{`s$;@>TctmlQ9VgxVhP-
zJ)B0Glc%Shh|1vj&Mq$M36hE&%pD=v=_ptCSS5Z{Tl)VQJd6EmSjYnnu$7L)9gd$l
zZ6IuElY-4286C~c%$!-!6eBYH?)Em6rKW=XgDO#F>ubxlp|}bhuY1A4=TuZeP;bJ*
zo;x;zKDL&GS>OOqPWn!NllKaHP;I(p+ct=P5siw(PfyQ2>dZFDKKT<Q5wz6ecy~*x
z68^Ad;|4BsT#0a0l7)rE@87>cp;0znO57$Tua7ii?Zarn!6qjs#ip8HynJ~tEDVi0
z{}kulu&@jL2emF-h)zgQ<!Ijm@uJz;y1lcrQ2V(W06uo1UrxXukFs>_=f4Ij6DzzO
zQ8w5luWO8pxc@S;va%v7YiQ8=mL~H_NJx-vvTod<YTzgC-nC11Y2*M=*}*}mkH~Sa
z0SB-(Eu=F8gw<`hk&QfBi$(YH^lT|sCIsER+Z>w&W*He7IWyc8U2BfoJ3AT$GEvYL
ze~$8I<&GrU<7PFx+}+)YceAsnJ_ON^-tzVFfmZUeY&x>qR5eyKsA)J;P?bA;aA*kE
zdoj<FJT%0YxXB5XT{HEJ%+v))xXn)w5-tjKc4iq`HN=ufMoyT2dcfQ(W&|M5>R5Kn
zs&PMin1tsa^9E`Vx#Vq2P!zIF<O<TE4%J5qrUrsMXPxxMhRE+%cApt)(9P7d5wwAr
z@$+NYh5OX|PvAh`tZTuW+a%b1e;*JV3Lv|<wmenvcd9-8(H}m>SZ9^h)m2vSb5wB+
zYdADwy=?pUi%MuGYxu0M&Z7W!{R<uU2uEG4@bPqYotyq%h2`AO##a1weJbkFqqYcg
zPjBx!`lO)t&lzihM1#&C`ole!1w%D?89s(_bbYPeN_B%dNrq7M{yo@oY_T<@B}<_V
z`9GYCmF1~!M5V}3gq!9XSBhj@oj0{PWnd4m_OyYmC;_?&M6$7w5$nsBF9RO#+ZWWu
z2HALAX*s#2?YVl`-ed3U>TFTSf%(Z~GBzEnxcwKDFssjxTWSuX{pYh!%I{@mWo2S=
z!}%b4)9}#M=G(N%E)G7zE@IicH~&fi-Z@LTKDh;*2BHO)F}-5-V{@|;C>C}BWDCct
zKX{HobQI^)M9J*pUZo;Ya#k_^Dtm{ZyfqHUj~}^ilLj5*ibsMCO5L)Gi#^T4m^Oh}
zFxto|L3!&zA$1>ZwU`}gnXNt!!c_tx<bsKB+EU3SDykb768>_=pSYF+5h+7AQ~YX=
z0>{p|xj9v3<;UVz4SJ)tVY8I5_#Sior|;^VK7ASow$yF%dSw+o71cM!xqFA}A3uKl
zrlbU$t*lIXX}1F9;^-&k-#C-&78X3b7Jl`WCP=!DwWn(@|D6Pd>%UWgRnC{3EK;}s
z`lh9^@jm<N!q2d7`@dK{FzK~lrBhlA9fgdPHRKi?CS+!0jE#?%mzQtnDkvym7B>Ex
zYf%pgiJP1IYhND(EFg`ZGBtb}y_S*PbN1qKw0}S(Rnl6)4fha7R``X49C~-)O%1}M
zIPJS$B}7JcfY)v3+P;1JlP6Dbb=)Kd1_oLph)C}ne1IFBspMwfkZRZgluN5z`BM)r
z4Z0rX0N8L`Lc;ypH5<w+CSBaTQU2`Npo+|98r*6$sXpKQ0i`$g-MK)Z&(hKsmzTrX
zWnvu!goN&ghLW9G%jaNC7!yO71bZs|D?tY;cG}o&yvYgm12waxR4mrktOg&>@}6z|
zkLnP^XQE)Or?t|r&y96JJbXfVI{2fCva*Mz#N_;*p+U-{xyrfN2S*dt3Ua*2uk>y3
z67K!w+%N0%#@WPqb!m>nZ{a(+KAKrTpO%%i_up=TpgbBJxc7Put0OIuH+boLAjdQH
z#5EjbRJ@vxA9rrPB`!<{sj$F$I|V)y@0OR#a1G*?0tBU*NFMW9a0*wR#q-65_TXuA
z*4v4)iA|<Ce`aR3b1B{5e@tAQnwt6$NtuU^NKm8Sh!dnxubT=<8P^no-Wn9tU3j$@
zAAL0XcYmpSSheX%DXAjQaLUP0T%M$tTU+>vGAFn2?Ka*O+vkbHSKySQB8kMNe-1}d
zz`;Z8Ogq{PeRAyGhObna8u;W~J>^a7<?TIC;cLhjiIc|5id|FYv-qcwZx?m}oEuly
ztBZjavc9%oe$@LI<67ddMFH{>?Sw9c1sywjlr~5K+BjMq&${$=R%~_G))Ce*^cWc#
z8Gy9YMB+%)mYqzHpbK=bplIxX)W_k!l7np;82E9hAr8+Q{fk|L<}P{iWN}H!tBZMe
z{60=Xw7|ve-?tA3X&(#Axq+;=!!y3VzJTW{1dxkgzkWecbh&mdCpWjJ%yR~?*vH4`
z<;$0VSG}LL3buWhKv(Pco|^mB=M4@}SA!l~{qZBniRCNYDr0XPPsp!zb#*2F>uV_8
zqlQzw!7LIEMkr-|erpg})p6t(rmql{6&0(os?gt!FJ7!2p1FPd_5g%m{3!aV@THQ7
zC&wft=J5=4qG(~0`ynB{IC@|i6d-`tAlEUHz0gQzqB0H=$j;EX{VTA_iGE8qXg76#
zab=)ca4u%I$YOh3jzE6^lU)Y(F%oizPI&z%*Z{P(t-JO<05Ev;Xa+m6IeX;*34#%N
zMoiUrs8=6=Bk@s44~qJ|Li!IprAWF^_PV-?z?-n;#Uvz#XBP1;wVyvfl|nhfL)tOj
zpm7ggGb%bdj7>@}tFN;&idIWcZ)j|6sVs8?l`o)VU1q-m_a0w~h#ot0>~58F&cPw|
z5W7dBR#v1>pH8JeeBY=%7M;}8p^+&hKv%bVqr6OCa-kk?r0vB7qkav&L*_Yaa|h$9
zGyE4`Kdx%=Bb?(7-?=$u$tyfJAm#2@msfFo3UAcS4N9&;!Q8H{+{N)uC-xJe@TV0Q
zU!s={V>+YBptwgo&cf96P~<r~+qw^?Imuj}f1Zx5t=@Y7en*gkk#6;?EXLe!ft#lw
z>uQ<^4>|EbZg~CrS%q<IOs#`8t;>mtSQf63xpgT~2E~q!v**r@)z@zU0%(#;Y@S^H
z+dv;Q2#j@9OboTsc3IUSrLOKAs+HFpXxOu-u3X`YYtZYzcZ%?PW+ru8gm5YOw?{@5
zcgy;^DQ|D+y?Z)=k-pGnMxVcvW)_rJ{z%bC4ZPjl3djCZz2(0Gy3jQ7D9Wv>nha!n
z(U?8V0jFM6tbm8q-Wkjx{bmo7CHaS`JRyv>UoP);O6ssg$%o<Jb6u?E<({{<Hl!*+
zs&{kKYkIO)GMw?^h4Q(Q6Q&9bVIS?nj~m}J5@HUio=t2>^p{=u+spRwA>Y*3V#5nv
zv<$Pg9hoj!S!{2Njzz1CjqkQNURWRo=BLA>MIz-33rEv(Pkrqcl37iUiP;{)xHc4b
zIzmO(W$1IRMUM6}()EcE11;0=$hpeDH*S23jg5W!ba1@OkwWx@4f`12r2zNMhOD%<
zt-BZ9DJ?D4;R_85E6UBa4UP1h?{gPEil&^OpTCPh017zm<n;PaX^;Z<;zVAPr2DV)
zm09dmRHp(#@0>u2(a(R*EDrdu%Oo69Q&Yn+NIZJwJv#2^h6a)2$MGxBMvoSM=>7Zb
zu%uA%P>3iEvM1jLP-?@54IsH2Z(bg4O#}97sH>B7o6uK@0F=u<>F>XemOeR9S^4_)
z^bGE~wCC}@3j7rmCy>n&_$n}8@VU82cs!1YX<-A-J8s>~>Gh?i#<KP4SrRREpom?k
z0GVqQ2Hr_Y$=0gy@Nl?wvrZ@(xUwfjI>0haOi>RX=32L;;MCQc=fW-iIxw*QIY#96
zHX6TvMxY~=>Yfr`zlx>W?4i8Z*4dI78ocPuck(1Y|KC{vafh$UnmTY{Ao=$-lAVX)
zJvjDDcQn!;I<G+;NFwn%_PRJb8x%RP$#g*;c`-55ZIyT=P?u&6n#c4OKF8TROCYXK
zpYkMY=xb@cAD$5u5HP+xiV~drdu~!uIlI$1#7KySnp#{;EGsK(@@w%-y^o}J*CPu8
z7iiR*Gq8%EMBlvm4mV+ZY;4!=-E-dZZ6Y=_?@{wg-@Nfzo$Ja71(-YGx3Yka+57Y;
zIxyol>is|ha%e8N6H^t-uMARwwL-F$QQ#s20=D?>Y}naGM>-xe0iaVCw?DGqYdj0m
zHWQ>{bxrg={=j-NpW}Nw`B}k?tDkFXhG1y+mAX4N67#<f80hKY_=^olDHky?F^OCG
zVljC$XolLCZ0Da<PL)UY@5(+%fHK-`?*<FQU>S6OJ69dQ5kL)#2vi%_@lH=KF9SnE
z^~XoKq@+sW4dT9ExpD=UcRdlvrL&vzC`K><o)GB)#XY>3cc%CON+mQPTH>#-#ceRt
z+}-Ezvq`N@SJ4O>W<+s{iinKEdqvTQnid(#9ge%Nh^D9`E59G@{unGvN<BwQ*|~Ek
zh0_CVa>)4s2||AN0p24$2w@iXTU#7XPfrKfsk*b975_|3-V2HV`Y|d~`S9UG6sKK#
zkDlVBh5tpV?Vg^Vu=j?cqEkSWQOizg3&YUAAr{y?Un>3magE2!YEDQ=L6%Pdc1=q9
z22rfR<RGFP?*RPN<$Q#Ac+i;xDk{w1-q?V1OnLx;RW(5}vf|hkw4F@7th$DV-PF{D
z`T3CB_Dg$ALmUg-wXYR#2!|9{mYPlSYl&+JZ7Z51*x0sh+vths(fCzW<1Rk`%eia&
z_Oq(0mvE5q6FhX=qw9BX-wvNxT|q%XqzkBd*A*L^vozBl(&X3BG4urvks_j_=SNy@
zJHS7NxFrNb7F!d9fR2uCD-C-Y<Q1H#cv>wZBLP~%kDotB8-bEghGw0BW8(b3tEbNI
z*}7#*f}Fqcp+_AZ9Wk-7&>_TKQ~{OF0mDM!W0x^PYt_>`BUkT*$^mS9_Uu^*W3xX$
z!>0wl1GJ8q($qwOGMeGHncY1nDiqBhUEk6F1z@}RJofc3kSM%4vM0yTP$}T$#0gp=
zymSs07RjqU`A4*$HP?1wr#L!J;m;75I4JjOe!$;<ZcNvU3qqS87`q6+jVPfh{v<se
zoheScot+(QuBj=C%VYTp7;LX82ua<r2?U=bVYikR7Mg|oAgW<`%Ta>hY%R}?M?ZLw
z6hGglE(hv6^73Ndh$d4Ag+~BYTt&$RAjXcWQ+l#{@6n{i`3bv$4k&HSr0w(&+`(%*
zVEh1DfUH5VDlRLdBnIq<_%=|T3WLLgqi<lAlaUJZUzb`vPF(fm{ylq=%f5c->T(CZ
zjt$Y8JpJ>x2Ou5g6Ta+p0Vr!ok9j6TKu!TU0C<_2<n(vDS;arcirIDNT43Aw)h4pw
z)=O@Np1O7GSZQ$d-Kf*4fRSMwa>gas)5o?Pw-;ZAf0db)1wiA+`Y(EwzZnhqP|p+d
z(?!kNIMBv423lEY%~(p~V&^msULEl|^IVi7LqkJvPtSrYo)mDbvV8J=cEu9%3!1q3
zEV4cxIBxZIb&XGC;;_?DtA5-ef(Is8)4YH2;stt-Z$qpYv}nd41zcUZ*BsEL3uqlH
zWxF<K<Zs3<RfAhhL!(Ynpmi=>Ff=guu_qNh=G8VD_GbUqeF1(iMn!D4gZb8Buk#O>
z*jre1Jaom9_U@pj27I4FMVq^Hmwgwj_(Y5^UJ@0!puiO-BY(tZDypl3aEcEdIy0bK
zR+euhR!4Sb7Bt8QQA80a6o%K3BxqBqe+UY)oZLV|Ll!h^irJWe+nOwX1luM_5T6DW
zC(h5-=<3z1G4C<TdWrPho`$D))d(NthVhGS$;4zZUjrbN+qX{xSI4annc!cdyDM*L
zaMJE#5mjD%e;VE%pd+Fb7dQg&BKZOSm&8gSv!gIpKqx|+?aQ~J53KS;ub<Q1hi1;Y
z(8W&SP)hgq=D3dQd9}B+T!XX?_HWC4ALpk`e62uf0bcI6Z<oo|iL$-~F34%_hRn#M
zHS4W0lIVgI<|b!mk=5|aQ8X#@$a(eZ)ye9cdZsxGUyEIqUTviMCYHQr9s?7=WbGP6
z1LCLZ5N3bPmJejCts_b=qCcbupsq8EEA8z%<aV6E=|!KVYtIae9LO_^KC%P2Cg2UE
ze@G8dwh)>aF|LMi?>#&6Zg>Vj_*v;NT=u=p%t|y}9Ua|0J$}EdnP;s*H$p>IJw1y%
z_oZo#MjX*b319H3_!U_6M8>=GJZo?Y%8TF7=Y7Oa(C|hDC&Ad1l|O->JdyTHDg6T=
z1aMvtA-}8ZLieYizbn9*p(&3)p%}?T83GDH%K9;Y4B{trlN4RiYsIL-u~P0rtBpHu
zp1N#h1^HUYOAB!x#2(@rqH4`awBgF2<vJHH#v~+6lF4GugUZ1v=Eq}BaW<Fl;NbYD
zt@ZaCLvH+qe2mB1il^5C=oK1Y9qU1DEv<>kN!R$zlW>YbVHCOdT)Jw8N^1m^3I+DZ
zhwapX+G{jSAqQy*Bc9c!IdO5U<!N#&)2GohPn|ktZ2aVYH9Em|`a=SSg)g5yJ5#Wl
z8YW9oS$<_fT6(t7RegN6cUxR#Gm-#MO~IG>4QoPKi_mMJ9*c<NA*JFu@g*l#Dtc&W
zh{C{&2K;cSGJ2lG#|tp*K*LGtTu*TC=OT%c72g4Kp;%?Vd^tF?h=l}VyNLHv<~e@+
z_&GHFd-r%q`=#7I_xC@M70fWdeEBG<IPsIn0I}LK4=_DquDL4on3xzWkY(5c5NIj)
z03c9{VGd@?`6trdjg4vr&;Jow!-nd$?|@pNo~ER5Lm0DikcA31oy|D`sV_ue7TC+l
z#U=0cYmGwKwA3u3Bj~Yh&s2LM3;-eIvs<8oWT2~q!`uE0KcEEKBzpVxC?)!2WCTHS
zKO<u#;3DEpJ0XWx`pKXJ9Xx1(hydvUs_HRbUS&aoAtOYV;9&IpL;{y{v9vgdgQ$)m
zfz`~~`U|KbHaXk!2t^0Ik&wXVdyfUyla2oe0}&a|KMF4D2M-;xL{WoLrj_14Fks@^
zijPZiiL|v(bBGK&uj_We3+Y>V2&o7j7*bB_kSfrz?*s%KJbc*O+uO>*A|No3o~Rao
z;+>_PC$my!Zb3m>_F-s*+~F^dco&_cWRiU4r=W|<(|q{wK|ud?(n;5fC<JYY$q&w@
zEeQ>#O>gY_P;1`0w6w%@u~dOO{M^a9G%-=iL)zv0#+#=En7X>U#^(chqwBHFU`YgS
z=i0F)O+$mEvGL}O6!<J8TH;8}dNS{lTyS+tgdnmtu9-;K+@IrP*wHs^moy3s2s~R(
zZh4(~-@Zk(ajdWpbRyeFSXKb3k3W9{aRJM;s|*&N3WucwTwUQzK8J!H*Fe2<XGloM
z%wNi*u&C%TY46^>qW*$S{IJ0mL*?hZ`kuk+D0#FD0aw^~-==2yg))xi@v$wk+l0E3
z((a2Q+{v=nDN@BOM<4aO$>@!~z|e0GRHLO;E>!VNn>H=cFb7s~kzRKTh{q`s>f75R
zs<oczU&-kf2>9XelA}MEcviq71m4J)9;oNIzHnTFLwIHAsr-tt*Nf=Kpr-9C_=rHy
zXxAsN{ZJ@4i(JINm`^O64DJI55HCU}RhwFes)l6A6FGlbZtj%G&V}=!MqRHiIhN0L
zhBO#!Xq>9#LbpMF<<@KHRCvAgj0`P1lN{3k9X?klCy!TYKr*9f#BKKK(Cp5if0><)
zfS8)8DR+4Z$P#dcjT`0R>e^Re$1D?xAn@|?RBurj+y`ZQ`w3uoF{?5xuc>K@kx(VF
zF!)j5&7%;hQ3(8AWhHfVc4DR2rQGa+d0{<{x2LzE4sWOIa#%(vqPDB!<Ky)7^lh!J
zaHRl`LRlq7+`^S3Vq(%=RW?w4E6%TbQUGE0@iDXe`%e;0zU<q-e`09pS*I1mm08uD
zfOoO(=T4kBfsS^UU0gz<t0YRqs?prseDmhbFedTH($9I{(<3P%QIwO%2BE$bR|-96
zv;~Ez_x*cfv63~~=$yu97%5nY)RYu-Vmww>S3RXEp)Jv{)mGrQcDFxUce5yPtY3!`
zKQjZP#wtf2h9Wi@ySV*cUyn!7?M|GqW`Ba9<Wu1alp}a6?k+Cl9huBrgXoElWxwwL
z40PfIV>ge}&cKNLh))bRLp+X+l{K^bJ8;(1Z6FBH(T^6S<IdNW3bS}m&$p(jh_NCM
zIhuJ&Y;{;}U6U;V<QX_GA{CNnn`D>!fba8eRH>!Oq5<2<smaMz(BRBM-o!o@CZ^6W
zvisv2I+yfsplq>AURSo$jT67x`ai-q(A!`X5tEzS+w&v!k~^S{cYI+t-zkZ#5+#LW
zn&W}nhpSoQ`$q)~W@g*6b!%b&d)7Ab#it(`cu3P8Wrbw}d#Jw6b#}Tp0!x(X{69v_
z|6AuNuFb&`5IrXpJv?MdPgLN(a`ED|ix<OD=W5M6I&=l!M1>zXoTEQ+>(&x#c8Mfc
zpZ<jl{NWn2ufsJ@%Wvpt=1k@dZm?_#)jCo+n#n6Di1yGfIogsM|Mja<XXjrUj{fI{
z8OUR(sC@o>Pq(zV)cs1{`doEFwW%h9u8t0GWN@tU*${2sL9O(Nk0N!op87^cv$N^f
z<mJ!$mM0~@`&JkEw5R7zEK5L6&dX$Z?(n<Yli|XQjc;L4jEu^)wPo14HMgt`aFQii
z!@-Wfzf{6Fd12roSjU0rdOO?Aq}P1>78(3mnVG4)!ByW!uG}_J5(rM2y|gJ`ddZPg
zk?E0sHcjiFc<bz?yF%)TLqQ5kk$~_8Zf;Do>xNE(Ha4vzBkBce2=0hTNI0(Xfii_i
z42ZT$j!tx&#=P`caFU}WMVw{*gA)=`hn_AhbgVANiC4ZKQc-OvbtYE?C`y?9BnI4K
zrEL~Gd9oYZ?!~9KU(4>N2zZojwX@SUF<IWp%+A6JH<&&>UzX=X-@A7LQl+1IOSRA3
zaXob^CXKvav0-Ixc|cLIGnPMvx4JGev&ZeHvC9cj2txmvfrtO5yV0(i^K)Y((~f|w
zBA=Rv$~^GFy4;~JWe0Wcpjdfeh`@WaM5yb?-QwnE#g{;sc>DHk<=RpRZ7%)>f5zj%
zg9qR#!^6Y$L@jM?N}jqe(*we{zW!s_Yn7GjC_vX|jdDz@0TWbdLKIR^^YGIN>?mWq
zcI`q;q)RgO{2?T_yAiI%n{h~cB$+WHqSBY2%xeo;0-#2E0NB=M*aLF{@`wLi#|79_
zB}K>h`R$Oo1p9|xrYjB`0s){^AkmUx_{-0%vp9_ap`bSw8wqjophQD}tXy9emPxOu
z@I#SCrUgzM>A}N?bcj^oHIOUH%FT5~@h3g#=`rYgcbX6*>1qpA`0UwQ=pJ&GpZCU`
z@6=ZZoWs*ws?ZYo`S>KA2MIFJHw`Xc?0$7gDoX?nJ6U5dJ^iDYnC|B0q}0bZZrs50
z!LoUw`3Vb8HOnFOq^HNk=7Ct9Y0l&RR_FjvPFy1@ZEeH8hkd?n*Ip<1*A@pts+Ydq
zra`bV)$9x<Ua7Yo*u?{qCGOD?Lxj93%blZtp0G%cHUVw6wYPs6Z;NI(G}MXqB3!Y+
zEhAI@^5uC~8_4~L`bG8d9miD9*Wx^n-=^$g^ME>7xp*n}S2<olaYznbyl_E@a8^z2
ziIls;nKO5E_zqH%=L%=e&=KJk(KL)ezDBwx{^*sBfmJQ#wLmHT|2**FFuAbI5xes`
z!b5X&Y*1Q}hHx-9pT)(|!T+MDsuXd19oqo*M?SWK?PThiP)XmV>quJt%0LH*0TjcX
z{sn8;&Mwm)p(f}gCw-Shxy*6X5GXgWf*zNQR0U9kt(lL{3dL>h6an9aCJRh3YYpQZ
zaTk`%=MWzNG9WQ*<Kj7ZkQ^$}KMn6yMdbjA=kVb`3NF>lGAO`RFn{^NTtjv~eEzZ1
z?;nc9yGBABxOf2M*b~_(vIsU~{KJlkK=qbD$>cy{hKA9>f^4zdudg@)P0!U6kzUDA
zqr||l<q%{-B&x`^gO5Gzxuh%P3#8Vs+Tc)NwdyogRO*9+cd#7<G=Bc{DJd`z`L3>}
zCSd^q0aUE|dj10kZd1PpGKMc+{<cP33DU!8xuj6E_xhUeg$rHJn#Lz4UP_&~D8M8G
zyAf5d&N5=r>z{DWE!m^ft+v+Imy6aS`<#p8W!00<a?<kphsT~i^oXwYrN0RfGo=5R
zC62&oQtr`Utrw!&B-&tZTS5Gq0;r@N^-_a(B<xnz_ZRF2x0yTn<N>U^S=N0hdl<Wj
zvZ)|4OeQiVHgO!iOywJ|A+ihhy6A-~W@e{3#-8e4xUh@~8Qvq<P+VMBz?X5ijD#cv
z1dzpZh4MlXEUsPSBAqySQl{xp;k{e8Hd6eOFNkjx50RaVV+Uw-G}qU<w%U$x>MVE8
z<>I#6^bFKk!c)pH;n&q<==kz<_&u3L)MYycc?|f!J11W2A(})4<mhMk?}GjcVZdy)
zE!4u?TtS)5lSw?Tk6VsG1G50vot^oFg!D}4qgmP5R>9lg?!HiUc5>2?N&dnB$cM6k
z+~RCY3o<?kSd5Nv?Ai1C-8PPRSzk#3fqS&AP+<Veu+dr%6Xu9Q(Hy{_P(g*oy)`w%
zF&t1IwVCSesVwI&X~4!9scA3!?A(!|3zF63O7(y?7ZMS4K((wEkQRtx5MU5lM!o^R
zVx>qA?%ms!b(j<O=H$c#tlKjj1ROXlS|23?c#d!pyIZ(&CFP`<rR5Ol7{iWg<h>mG
zN)$QHmO6cZk0kk$k)b?&NHyLOIt3zT)HF2NnVE)foVd6Yk~Pjl!IqG?kX5O{TLxJh
zO7}s!TD(w15e;N8Xd`~BOXa6_14m}){v`lYLY(sXGgu4mLQez<+P{B4feWjS$Mr;%
z+cxic&>je>wkoe*zaHr+;FmGNLt8twI0_{QvsPFVL8Q?k`J_!<MCYmSoO#xnaY+4%
z5B!$5Z%=t$M^X{BxK0M$$EP6Vx-~>?ApwEe-@lWm6r^2-?t%0g7#Nrp<;TUu;F?tn
zs(X8TTU#H}VhX3~=kJu%)NcF2M~}3xU!R3vGD?F<5@cNLo^bK<@;;XF7U%lV-R+57
zFY1)s>MT9iAn^IlUAsPDhVax(!8uwwB9pMOGy?0Agsv>Z=iTz2MO6qv9a4>bDh{Tp
z<0-F-A%IR@WX=)dIh*wxm>JQXmY&24O?ex1Az**)`+kVl7z|5Z`$4ia!_*9PnEb!<
zGc%<=i@CP-$fS(iyh0J^#m|o$?WaDB<Y-<wN|u3(FV+X2xbuHtW_fveFgfV8kTtUM
zcVxlt9{%;KzsIgS-$om0Hv@0M&^;m5kPF6POH}}scqHWO;ZvM}s^+!R@!pVTXJ^vC
zVQ1(oBRP=gy0-Vr0zCi!8o$(}@SYnGJ5_I%GyTYSD~3}vcs-<%*=SJ|ik9<Rc|gle
zx4phD7*RLI9ccSVw%ETbxW_J2e0m#m)}yhpF*t#7mBH9KJw1F`kDQ&I8F$2>2<IyD
z(80z?cSYke&nxh`Cd|i&@Ozxe_nkn?bV2Q(KJos8Ah5m1G4Y4&W!tmzRm>7Se5fTX
zJaAau87E<wOm48u>$cw#cNM^WeX!PygTq8c1=Tziez%E<+_pe!L|qRn$O~WOw8qxV
zFDMWZS?&tsJbIKeKDYFxvx{lXsNxANscH7y=H&hY9omYTLFZz90r6wUTHLv&fBd^i
z%sX}U^{7Wr0Ia(&y>XIH));{*ZUDT313i0bi|Ec<w0p+@zE+_C&0eam|8<*2miNe!
z7I#MB0*Z5l9SdDFc8fe=S3pQmlHxb!QL!7GAou?^(fi#YuM4Gw<>=)b6!5;fIzNCB
z+_tuv?o0aw#Ka2F?$Gxj(vWp==8cVijgR;K%`D8#mGqcS>Kxwn*5&(HDeOHHpWlia
z8V@M10p@-#O$+s&GQbsb|Nbu|)+m3EbJh;Uw70itH3R(i!7ag!-XzK-@q+mOdD}X5
zjPPf_d2<3w^ZvalYNvq-9}iPVQ=*)Sp`p~}w^ZA<1r}ycTR36%4@DJ%CY%i$HJrKo
zf8<S}(PQ}Ns$ri>GJqlYIaGe<Yb|RI?}6oTEOYc<A_&s<{(VYlz4tyOiBU)~aWg;J
zi@{#~yegzLkeV930^9*4TqsCuO#6z(w*c;@$tJ`t;1@vP)ZjgT_N=CNYPvGdj@`Qv
zV8@x3aUIivtdW?QSdq~Yjr@os-~s#=w17DHZs6@5l9U=PBh!Z|P+HR~SFR0y+T$CM
zt_~2Xs-}h=#;^BM|MlgYmVwC1!mP!|swMwH<%YB}O1`r}=3j%P$3;Z}u>DsSasWpx
z6CL_Wu*Km{wp4+j+m7>nuhy96V+GE^TOJ91SZfXvj>MKN8&YkIw6vU$YI%b(ltf9y
z&uOF?ceJ;|+{WyMHbZ1W!c|jKEo0+XomNOCLesr1o8f(NkW4<C)`}Vj`$*m{P+fM>
z9Pal&6H6#sJ$E|F89tc)hJXXLi@*h`sj~+m6N!Td)2@!+V!Gi%%03#Lf_@<apiLwM
zR_((O7RqM(QaoTd68-zB18I*VHx4?Wy-RBAgZTKb@St$;=!sD2@Svlo7b}Hd0B1)C
zLro1keU4z%(W$sZEdnnQyrz19gy`3q8HvdPD@?skOssr%h>3}Te##4Ma{FOY8YjWz
z3UnQSa@iy$!YEXDdHI_LiCAY~A6}`u)jtp=6wlHccp~eYv2s`WK;lEh#jzK_VCZOR
zk3w#F=6k_<M}Y}XLlZ553k4im$pK7+K7T%pK>yq&YEed^D9->4JP-*X)hS9R_uoH%
zsBI$Ehd^I$@}hfq?of1nB*z{uQa#z$ZzHlsDRS{CDJifC*k!zQisv_pc7$n;JF?JH
zDA%aTQ&6%@01Zt|P1L2O2DxKeFh|uW-wPnL<H>GstSRgsDDiMD!=fT0fVqvc!ctSs
zY;4kVH$~SM<mK75@y)5u(Q}6SoSWqkE^#q8A4I|EaGNXVMjX_2{n-Z1Ma40oT-?Og
zwzfG#8qqzsrWtF#I}uNx#%WUzGX}Ka=DtOnqQQ%;hxj)a4>$J@${-yz=vkeA=B^e%
zdO$?LWI7_;ExZg;qXaH!z=ef+S$XFV)nfnx12*hCd>56|TK^efnq&@IQ{6<o3*(xw
z*)|kh3C8t;qL=Qs=8?>+aBGk-U?yw^%)zEchHxj>)1;&%m;=c80-?i{{|k#70yYx5
zg#a~(QH+%i77l&;b`+Fi&w(@NaSqnkRxxAtbY1#tU&$P%q`~P>?|`U)Y;S~zw}5d%
zHHE-7cgfYT7f3&n{{o1Vwx;H9h>^$<&i?9KMv$<jr3J^E^k8vj7%7X#adGwJKQR8k
zzPWaK;NbW>|Fs#8CGmH#o8sc){9$>a{9srb+Rv9_7ppU8YEl$KZr#4UoeOOM@DtEK
zyF%s8p?AKd>@tc7DCY;{C4K17or(e#PTGmyB1fDoATSDjeTdizwDA`&crE+CXKL^w
zAAD*+L(Zm^$1CxKhzMj92|m8ylowd8=g*(ln;*x#CD>I~(?O4NOanm4Jfeib2N($0
z)Jq_`A3uC(4n>*)nT*Rh`anU>?(SXMX-oOu^A14@Df<&nx*Q6uf<J$dgv>r11xhR*
z_uyYc3;>iLr5+kH{_6`Me6FB)|A$`>@on)d&@C5NvS63T;ve#bk#t9(PSnnpKBZ)h
z{jxs#i^t8WR^R)QsMZ0iqA;ynl9P@)arF4{rNKw)I*FG38OTJImzBYvRgv5Gi`<1^
zAEsmwrWpApj)DS?4>Ve+s!JvLZI2z*`j6pZia6@EfLIEu9u{YQZZ6Fb^6gazhYAev
zihEmsdU#L;cf}-<!M+49w{`Po*b{G?n$!mhsM@ZC(I#o4bnHdC0Ye}d3S0l&h|wTS
zWOR1wb+<M*b4J%AQX(dWq%7zj5*$#Y+3Hb~-JP9#K>1+<ws-1Yx^xxXcTx02%y~Tw
zwL3Vd$z4_tHG)teEFmJ&7LW5}XKM?y5J#!g6f<thJh^xe$#ndJaBsD#&96NeBSz*7
z?_g$T)=>-z2L-FpaiD);8&xxt(|y`+i}t;R4J|F2i@RGJ8-LXcSH{cvSAdQtBqX3P
z;kfHUk6>i906n#^5JOxYFGrq$?2mH%kLyWku~0@}ABJXOqR#htj6D+iby3)_V6o`t
zQYTK}+Y(%-`d2{|W_iMuMg7-S&`DZU*fIAGdps*%Q-I0;Pwin)a%5KVPWY^K^HC8|
zQBaOC#nOs1)YIbyv7@f*2xWw3ab<mNzH+K;=6+h*!New{@{tbK64E>L2&twfn1b)#
zy{oMqMSsee!??;W4%zruo$!#Vs!q?@^daWkjR-Kz;KoF%Q#<huCDMsFCO>|dTF_$R
z%om*+3IcB63Gcrz&mW2twb8nM{W{Xb@UQ+3tgoRjQQWlaRsqC4jEt`M@R$T2Lbn0+
z_XgU4V8!CybX801AsoLkSu&h2MQ%+%N;S1c6bTrWN|lZwPa+;Xc#UNMn?&1UW@5tW
zgcrp397>BP{zp0su^zeMro@5f=2L|5b7`mV>^gh?JUW}Vm)8=q56G`jc!<Co3<}jg
zJSf1#f8@w0tPW{*VX*KRV?>=PxnhhwM8(7ugNdxK49jH{%VI7XsaCw{@Zcb2iWzq@
zBQObR!UME~$BW!MJ&HA`nh9Qsqi=6+`X`XZNy1b;zL|uK@f6jQ$g!&tKOq(pv5Knw
zYj9A32Fas%TIatL7s>6YNpwWD1j)1lDvJ4G_K{C%bR;+|tZU-zR2rMKher3qNX$#*
zz{pY3WboZL9Bty4e)1>I?KuKENmy>c{YiN0kfrtYl?nS!I3+oc{Sz6-s8}*@#<OQN
z=m&6aHPzB2oQ6Kf%)Y=J4@g&m1B;?23@0uUBH(E`)KphDG1pUxcHuKbb~S>Y(Gp>#
zJdGb49WAzMVlOso{O%-V^yad)^(WIDz=KFOI42Om0(Y}MD;~_vJuaJ=y<bdR91Ip&
z5DOa{%5EwzFOPiGm?(#wH5@;kXndDPLQKqA!Xo?+0v9ZxcB5)kXk^7O;FD_ss|0}T
z&GpfTm6dXR$IU;{lH0L|=!pM>v}xF-k#)vq)Kv2w&nnVUHv|uzL6v>ZYYW<oQ9O;(
z_n&HN?$Bz%xxUDF%8*FAQ8XH7)A?~ltHN9`9fktHWggX@*sq2typd2MGFf92$l4*K
zWDxzC><q=kwjQTW4x<lZhyYwFX|JxfK$oKUz;O*iM~*-u1X<KJ+_-Ac_veo@s=cH~
zyR_$@570Tq%8@=&C#1i4p;7q4fx7RJtf&DjKEgF<B5D?S-LopkC=&?=Z=Ak^hsv$5
zxM0{0jZeU&Vr9LjIPQUY;Zdr$RvOEq=|^tyoFS6(RpW^Kc|8oTf|E!|J^6Q&oEU$k
zC~nq_OX9G$Yo$?^r&CmX<J6K!&@4Wtd|N<EJytI0Mfaundd`mWxxT6843()oso~F8
z`cv--H<r09_{i=%C_#c>mT9-`Th%G<&EI}Diwe>bj@C^1EE9R?uH4J>2Br{TQjumK
z=<OAWIqy~e<k@INg>3AzllvPXEacUlM~aOzT$xmLCH7h3Zp^AKFE3x0Y#^_#+5ucB
zzi_;B!N}+ytryc3w>-2&WOifD_e{FwbxR*RCa>8J#Q!(E+mqpj`iAP`R6g<GJo*BK
z80%{M$+)8$t+IX%{TX1dx?1th6;wA`B7FOFojTK;l{U{kM1FpL;Xp{c92^`)MMd3D
z=H^^U8dtAQ#(l^1mP_&1iDL1%Q0Y&fk<d=n%fz@7Dn3-3?zOfyZPEj+be|aosuj%#
zgbfQPP_YLCR>@?Gd)H3vcRR7)t9-4)K9H93^)w#Rc=4wg=1FTCopAHU_r~zhfh`Qr
zAaKD&f`FpK*YWLJQj7KM@@ly9Af`t=JQhYq2wYEFtlMqp&@DkzYZiX}a)7F0Tfj}i
z01(nDZ{OZ%u*AGBLT1=FU@#c}YalbACc3*fH8cnc3RasQgA_b4(6n|?HBAf0M?6k&
z@2*3SYWw;wJ#Raka`5l`JZdA-@Y%jEs8({DUUhExHtuEBF)}j3D|K$|w|<shp_Q{U
z9an@hkFp3Y!MeZzqu@fPf>R>Sk?}1GnHzxak=#^MRSh3%Xh3(g67EMi8o6F_T~hVT
z>0}LcbsFzLdM<=nMz2fOS|8mzF*0)5u@*zSS+8C_OrDu>f$P-RYAq_87$$Ro_{mx{
zmn)q8QLREOh+aWK<avZb;C~;Fxu+BQOe=k2<38%ZwvG<Qu#dGL&L27uuDok&)p8{@
z)f(-Wi(7B_pZ?2`#v43|OensT$^Ou?<NNQg>&bM4&Bz*clpE-8y?q5z!r&mOf%oRA
zx8rk=e}feMIQPa{i;g)LL$g3zy2y6>m|JNd1bx0pS?|~px6)%ZyQ+@vn#rsG?IFF_
ztk~#DV&b|zMo2u%`>#t1hAZb@D9Ouf>+BqIE{4bF|Mxo8iZNwVw5GJYKnFwg*tQ^%
zt$s?!#3WlU^W(>la#FNZoO?D-lNVS0f>UzckF8b$|3ybf@2V>M%FlQsY+De<W!@HT
o)kO@AszOW|g!|wBR!~WGadNA%tC)>8{*mgeqME`h;^kZa7vaXs#sB~S

literal 0
HcmV?d00001