ENH: add DataFrame.is_unique method

topper-123 · topper-123 · commit a835b374d2ac · 2021-02-11T11:32:56.000Z
diff --git a/doc/source/reference/frame.rst b/doc/source/reference/frame.rst
@@ -190,6 +190,7 @@ Reindexing / selection / label manipulation
    DataFrame.head
    DataFrame.idxmax
    DataFrame.idxmin
+   DataFrame.is_unique
    DataFrame.last
    DataFrame.reindex
    DataFrame.reindex_like
diff --git a/pandas/core/base.py b/pandas/core/base.py
@@ -1105,16 +1105,19 @@ def nunique(self, dropna: bool = True) -> int:
         obj = remove_na_arraylike(self) if dropna else self
         return len(obj.unique())
 
+    def _is_unique(self) -> bool:
+        return self.nunique(dropna=False) == len(self)
+
     @property
     def is_unique(self) -> bool:
         """
-        Return boolean if values in the object are unique.
+        Return True if values in the object are unique, else False.
 
         Returns
         -------
         bool
         """
-        return self.nunique(dropna=False) == len(self)
+        return self._is_unique()
 
     @property
     def is_monotonic(self) -> bool:
diff --git a/pandas/core/frame.py b/pandas/core/frame.py
@@ -5372,6 +5372,34 @@ def drop_duplicates(
         else:
             return result
 
+    def is_unique(
+        self, subset: Optional[Union[Hashable, Sequence[Hashable]]] = None
+    ) -> Series:
+        """
+        Return boolean Series denoting columns with unique values.
+
+        Parameter
+        ---------
+        subset : column label or sequence of labels, optional
+            Only consider certain columns for finding uniques. by default use columns.
+
+        Returns
+        -------
+        Series
+
+        See Also:
+        ---------
+        DataFrame.duplicated : Indicate duplicate rows.
+        """
+        if subset is not None:
+            subset = subset if is_list_like(subset) else [subset]
+            return self.loc[:, subset].is_unique()
+
+        if len(self.columns):
+            return self.apply(Series._is_unique)
+        else:
+            return self._constructor_sliced(dtype=bool)
+
     def duplicated(
         self,
         subset: Optional[Union[Hashable, Sequence[Hashable]]] = None,
@@ -5405,6 +5433,7 @@ def duplicated(
         Series.duplicated : Equivalent method on Series.
         Series.drop_duplicates : Remove duplicate values from Series.
         DataFrame.drop_duplicates : Remove duplicate values from DataFrame.
+        DataFrame.is_unique : Indicate columns with unique values.
 
         Examples
         --------
diff --git a/pandas/tests/frame/methods/test_is_unique.py b/pandas/tests/frame/methods/test_is_unique.py
@@ -0,0 +1,60 @@
+import re
+
+import numpy as np
+import pytest
+
+from pandas import DataFrame, Series, date_range
+import pandas._testing as tm
+
+
+@pytest.mark.parametrize(
+    "frame, expected",
+    [
+        # single column
+        [DataFrame(), Series(dtype=bool)],
+        [DataFrame({"a": ["x"]}), Series({"a": True})],
+        [DataFrame({"a": ["x", "y"]}), Series({"a": True})],
+        [DataFrame({"a": ["x", "x"]}), Series({"a": False})],
+        [DataFrame({"a": ["x", "y", "y"]}), Series({"a": False})],
+        # multiple columns
+        [DataFrame(columns=["a", "b"]), Series({"a": True, "b": True})],
+        [DataFrame({"a": ["x"], "b": ["y"]}), Series({"a": True, "b": True})],
+        [
+            DataFrame({"a": ["x", "y"], "b": ["x", "x"]}),
+            Series({"a": True, "b": False}),
+        ],
+        # multiple columns, same column name
+        [DataFrame(columns=["a", "a"]), Series([True, True], index=["a", "a"])],
+        [
+            DataFrame([["x", "y"]], columns=["a", "a"]),
+            Series([True, True], index=["a", "a"]),
+        ],
+        [
+            DataFrame([["x", "y"], ["y", "y"]], columns=["a", "a"]),
+            Series([True, False], index=["a", "a"]),
+        ],
+    ],
+)
+def test_is_unique(frame, expected):
+    # GH37565
+    result = frame.is_unique()
+    tm.assert_series_equal(result, expected)
+
+
+@pytest.mark.parametrize(
+    "frame, subset, expected",
+    [
+        [DataFrame(columns=["a", "b"]), ["a"], Series({"a": True})],
+        [DataFrame({"a": ["x"], "b": ["y"]}), "a", Series({"a": True})],
+        [DataFrame({"a": ["x"], "b": ["y"]}), ["a"], Series({"a": True})],
+        [
+            DataFrame({"a": ["x", "y"], "b": ["x", "x"]}),
+            ["a", "b"],
+            Series({"a": True, "b": False}),
+        ],
+    ],
+)
+def test_is_unique_subsetting(frame, subset, expected):
+    # GH37565
+    result = frame.is_unique(subset=subset)
+    tm.assert_series_equal(result, expected)