T-SQL で重複排除をマスターする:DISTINCT と ROW_NUMBER 関数の詳細比較
SQL Server で個別列に基づいて重複行を除外する方法(T-SQL)
SQL Server でテーブルから重複行を排除するには、主に 2 つの方法があります。
- DISTINCT キーワードを使用する
- ROW_NUMBER 関数とサブクエリを使用する
それぞれの方法について、詳細と利点・欠点をご紹介します。
構文
SELECT DISTINCT 列名
FROM テーブル名;
例
SELECT DISTINCT 顧客ID, 氏名
FROM 顧客テーブル;
説明
DISTINCT
キーワードは、選択された列の値が重複しない行のみを返します。- 複数の列を指定することもできますが、その場合は列の組み合わせで重複を判断します。
- シンプルでわかりやすい構文ですが、パフォーマンスが低下する可能性があります。特に、DISTINCT で指定する列にインデックスがない場合や、大量のデータ処理が必要な場合に顕著です。
利点
- シンプルでわかりやすい
欠点
- パフォーマンスが低下する可能性がある
- 結合クエリでの使用に制限がある
SELECT *
FROM テーブル名 AS T
WHERE ROW_NUMBER() OVER (PARTITION BY 列名 ORDER BY 列名) = 1;
SELECT *
FROM 顧客テーブル AS T
WHERE ROW_NUMBER() OVER (PARTITION BY 顧客ID ORDER BY 顧客ID) = 1;
ROW_NUMBER
関数は、各パーティション内における行の順序を表す整数を返します。PARTITION BY
句でパーティションを定義し、ORDER BY
句でソート順序を指定します。- サブクエリで、
ROW_NUMBER
関数が 1 を返す行のみを選択することで、重複行を除外します。 - DISTINCT キーワードよりもパフォーマンスが優れている場合が多いですが、構文が複雑になります。
- DISTINCT キーワードよりも構文が複雑
上記以外にも、CTE (Common Table Expression) やウィンドウ関数を使用する方法もあります。
最適な方法の選択
使用するデータ量、クエリのパフォーマンス要件、クエリで使用される他の操作など、いくつかの要因を考慮して、最適な方法を選択する必要があります。
-- 顧客テーブルから顧客IDと氏名を重複なしで取得
SELECT DISTINCT 顧客ID, 氏名
FROM 顧客テーブル;
-- 商品テーブルから商品ID、商品名、価格を重複なしで取得
SELECT DISTINCT 商品ID, 商品名, 価格
FROM 商品テーブル;
-- 顧客テーブルから顧客IDと氏名を重複なしで取得
SELECT *
FROM 顧客テーブル AS T
WHERE ROW_NUMBER() OVER (PARTITION BY 顧客ID ORDER BY 顧客ID) = 1;
-- 注文テーブルから注文ID、商品ID、注文個数、顧客IDを重複なしで取得
SELECT *
FROM 注文テーブル AS T
WHERE ROW_NUMBER() OVER (PARTITION BY 注文ID ORDER BY 注文ID) = 1;
上記の例では、顧客テーブルと注文テーブルから重複行を除外する方法を示しています。
- 顧客テーブルの場合、
顧客ID
と氏名
の重複を除外しています。
- 特定の条件に基づいて重複行を除外するには、
WHERE
句を使用できます。 - 結合クエリで重複行を除外するには、サブクエリを使用できます。
注意事項
DISTINCT
キーワードを使用する場合は、選択する列にインデックスが作成されていることを確認してください。ROW_NUMBER
関数を使用する場合は、パーティションキーとソートキーを適切に選択する必要があります。
WITH cte_name AS (
SELECT DISTINCT 列名
FROM テーブル名
)
SELECT *
FROM cte_name;
WITH cte_顧客 AS (
SELECT DISTINCT 顧客ID, 氏名
FROM 顧客テーブル
)
SELECT *
FROM cte_顧客;
- CTE は、一時的な結果セットを定義するために使用できるサブクエリです。
- 上記の例では、
cte_顧客
という名前の CTE を定義し、顧客テーブルから重複する顧客ID
と氏名
を除外しています。 - メインのクエリでは、CTE からすべての行を選択します。
- コードをより明確で読みやすくすることができます。
- 複雑なクエリをより小さな部分に分割することができます。
- DISTINCT キーワードを使用する場合よりもパフォーマンスが低下する可能性があります。
ウィンドウ関数を使用する
SELECT *
FROM テーブル名
WHERE DENSE_RANK() OVER (PARTITION BY 列名 ORDER BY 列名) = 1;
SELECT *
FROM 顧客テーブル
WHERE DENSE_RANK() OVER (PARTITION BY 顧客ID ORDER BY 顧客ID) = 1;
- ウィンドウ関数は、行のグループに対する集計値を計算するために使用できます。
- 上記の例では、
DENSE_RANK
関数を使用して、各パーティション内における行の順序を表す整数を返しています。 WHERE
句で、DENSE_RANK
関数が 1 を返す行のみを選択することで、重複行を除外します。
- ROW_NUMBER 関数よりも効率的に重複行を除外できます。
- ROW_NUMBER 関数よりも新しい機能であり、すべての SQL Server バージョンでサポートされているわけではありません。
GROUP BY 句を使用する
SELECT 列名1, 列名2, ...
FROM テーブル名
GROUP BY 列名1, 列名2, ...;
SELECT 顧客ID, 氏名
FROM 顧客テーブル
GROUP BY 顧客ID, 氏名;
GROUP BY
句は、各グループの代表行のみを返します。- 上記の例では、
顧客ID
と氏名
でグループ化し、各グループの最初の行のみを返しています。
- シンプルでわかりやすい構文です。
- 選択する列以外にもグループ化する列がある場合は使用できません。
- 重複行を完全に除外できない場合があります。
sql-server t-sql