Release v0.9.0 (#174)

araffin · web-flow · commit a10e3ae58708 · 2020-10-04T17:12:35.000+02:00
diff --git a/docs/misc/changelog.rst b/docs/misc/changelog.rst
@@ -3,9 +3,11 @@
 Changelog
 ==========
 
-Pre-Release 0.9.0a2 (WIP)
+Pre-Release 0.9.0 (2020-10-03)
 ------------------------------
 
+**Bug fixes, get/set parameters  and improved docs**
+
 Breaking Changes:
 ^^^^^^^^^^^^^^^^^
 - Removed ``device`` keyword argument of policies; use ``policy.to(device)`` instead. (@qxcv)
@@ -50,6 +52,7 @@ Others:
 - Clarified docstrings on what is saved and loaded to/from files
 - Simplified ``save_to_zip_file`` function by removing duplicate code
 - Store library version along with the saved models
+- DQN loss is now logged
 
 Documentation:
 ^^^^^^^^^^^^^^
diff --git a/stable_baselines3/dqn/dqn.py b/stable_baselines3/dqn/dqn.py
@@ -147,6 +147,7 @@ def train(self, gradient_steps: int, batch_size: int = 100) -> None:
         # Update learning rate according to schedule
         self._update_learning_rate(self.policy.optimizer)
 
+        losses = []
         for gradient_step in range(gradient_steps):
             # Sample replay buffer
             replay_data = self.replay_buffer.sample(batch_size, env=self._vec_normalize_env)
@@ -169,6 +170,7 @@ def train(self, gradient_steps: int, batch_size: int = 100) -> None:
 
             # Compute Huber loss (less sensitive to outliers)
             loss = F.smooth_l1_loss(current_q, target_q)
+            losses.append(loss.item())
 
             # Optimize the policy
             self.policy.optimizer.zero_grad()
@@ -181,6 +183,7 @@ def train(self, gradient_steps: int, batch_size: int = 100) -> None:
         self._n_updates += gradient_steps
 
         logger.record("train/n_updates", self._n_updates, exclude="tensorboard")
+        logger.record("train/loss", np.mean(losses))
 
     def predict(
         self,
diff --git a/stable_baselines3/version.txt b/stable_baselines3/version.txt
@@ -1 +1 @@
-0.9.0a2
+0.9.0