【保存版】PostgreSQLで数百万行のデータをIDで削除：パフォーマンスとメモリ使用量を最適化する

2024-06-04

PostgreSQL で数百万行のデータを ID で削除する方法

DELETE 文を使用する

最も基本的な方法は、DELETE 文を使用する方法です。構文は以下の通りです。

DELETE FROM table_name
WHERE id IN (id1, id2, ..., idn);

この方法はシンプルで分かりやすいですが、数百万行のデータを削除する場合、処理速度が遅くなるという欠点があります。なぜなら、WHERE 句内のすべての ID を個別に検索する必要があるからです。

利点:

シンプルで分かりやすい構文
少量のデータを削除する場合に適している

数百万行のデータを削除する場合、処理速度が遅くなる
大量のデータを削除する場合、メモリ不足などの問題が発生する可能性がある

適切な使用例:

数千行程度のデータを削除する場合
削除対象の ID が分かっている場合

IN 演算子を使用する方法も DELETE 文と似ていますが、処理速度が向上する場合があります。構文は以下の通りです。

DELETE FROM table_name
WHERE id = ANY(ARRAY[id1, id2, ..., idn]);

この方法は、IN 演算子を使用して ID のリストを直接比較するため、個別に検索するよりも効率的です。

DELETE 文よりも処理速度が速い

ID のリストが長すぎると、逆に処理速度が遅くなる可能性がある

CTE（Common Table Expression）を使用する方法も、処理速度が向上する場合があります。構文は以下の通りです。

WITH temp_table AS (
  SELECT id
  FROM table_name
  WHERE id IN (id1, id2, ..., idn)
)
DELETE FROM table_name
USING temp_table
WHERE table_name.id = temp_table.id;

この方法は、まず temp_table という CTE に削除対象の ID を格納し、その後 USING 句を使用して temp_table を参照しながら削除を実行します。

複雑な削除条件にも対応できる
処理速度が安定している

構文が複雑で分かりにくい
CTE をサポートしていないデータベースもある

削除対象の ID を複雑な条件で絞り込む必要がある場合

バッチ処理を使用する

数百万行ものデータを一度に削除するのではなく、バッチ処理を使用して分割して削除する方法もあります。この方法は、データベースへの負荷を軽減し、処理時間を短縮することができます。

方法:

削除対象のデータを複数のバッチに分割する
各バッチに対して、上記の方法で削除を実行する

データベースへの負荷を軽減できる
処理時間を短縮できる

プログラミングが必要になる
処理状況を監視する必要がある

PostgreSQL 9.5 以降では、BULK DELETE という機能が導入されました。これは、大量のデータを効率的に削除するための専用の機能です。構文は以下の通りです。

BULK DELETE FROM table_name
WHERE id IN (id1, id2, ..., idn);

この方法は、DELETE 文よりも高速で、かつメモリ使用量も少ないという利点があります。

高速で効率的に削除できる
メモリ使用量が少ない

PostgreSQL 9.5 以降でのみ使用可能

最適な方法を選択する

上記で紹介した方法はそれぞれ長所と短所があるため、状況に応じて最適な方法を選択する必要があります。

データ量が少ない場合は、DELETE 文を使用するのが簡単です。
データ量が多い場合は、IN 演算子、CTE

PostgreSQL で数百万行のデータを ID で削除するサンプルコード

DELETE 文を使用する

-- 削除対象の ID を `id1`, `id2`, ..., `idn` に置き換える
DELETE FROM table_name
WHERE id IN (1, 2, 3, 4, 5);

このコードは、table_name テーブルから id が 1, 2, 3, 4, 5 のレコードを削除します。
削除対象の ID は、IN 句内のカンマ区切りのリストで指定します。

IN 演算子を使用する

-- 削除対象の ID を `id_array` に置き換える
DELETE FROM table_name
WHERE id = ANY(ARRAY[1, 2, 3, 4, 5]);

説明:

id_array は、ID のリストを格納した配列です。

CTE を使用する

-- 削除対象の ID を `id_array` に置き換える
WITH temp_table AS (
  SELECT id
  FROM table_name
  WHERE id = ANY(ARRAY[1, 2, 3, 4, 5])
)
DELETE FROM table_name
USING temp_table
WHERE table_name.id = temp_table.id;

バッチ処理を使用する

import psycopg2

# 接続情報
conn = psycopg2.connect(dbname="database_name", user="user_name", password="password")
cursor = conn.cursor()

# 削除対象の ID を `id_list` に格納する
id_list = [1, 2, 3, 4, 5, ...]

# バッチ処理のサイズ
batch_size = 10000

# バッチ処理を実行する
for i in range(0, len(id_list), batch_size):
    batch_ids = id_list[i:i + batch_size]

    # バッチ内の ID を `id_array` に置き換える
    id_array = psycopg2.sql.ARRAY(batch_ids)

    # DELETE 文を実行する
    cursor.execute("""
        DELETE FROM table_name
        WHERE id = ANY(%s)
    """, [id_array])

    conn.commit()

# 接続を閉じる
conn.close()

このコードは、Python を使用して数百万行のデータをバッチ処理で削除します。
削除対象の ID は id_list に格納します。
batch_size は、バッチ処理のサイズを指定します。
コードは、id_list を batch_size ごとに分割し、それぞれのバッチに対して DELETE 文を実行します。

BULK DELETE を使用する

-- PostgreSQL 9.5 以降でのみ使用可能
BULK DELETE FROM table_name
WHERE id IN (1, 2, 3, 4, 5);

注意事項:

上記のコードはあくまでサンプルであり、状況に合わせて修正する必要があります。
データベースの操作を行う前に、必ずバックアップを取っておいてください。
大量のデータを削除する場合は、パフォーマンスやメモリ使用量に注意する必要があります。

上記のサンプルコード以外にも、PostgreSQL には数百万行のデータを効率的に削除するための様々な機能が用意されています。詳細は PostgreSQL の公式ドキュメントを参照してください。

https://www.postgresql.org/docs/

排序と結合を使用する

この方法は、削除対象のデータをID順に並べ替え、隣接するIDをグループ化することで、削除処理を効率化します。具体的には、以下の手順で実行します。

削除対象のデータをID順に並べ替える
隣接するIDをグループ化し、グループごとに代表となるIDを抽出する
抽出したIDを使用して、削除を実行する

比較的シンプルな方法
DELETE文よりも高速に処理できる場合がある

並べ替えと結合処理に時間がかかる場合がある

トリガーを使用する

この方法は、トリガーと呼ばれるプログラムを使用して、特定の条件が満たされたときに自動的に削除を実行する方法です。具体的には、以下の手順で実行します。

削除対象のデータを識別するためのトリガーを作成する
トリガーが起動される条件を設定する
トリガーが起動されたときに、DELETE文を実行する

特定の条件に基づいて自動的に削除を実行できる
プログラムを記述する必要がない

トリガーの設定や管理が複雑になる場合がある
トリガーの実行によってパフォーマンスが低下する場合がある

pg_bulkloadを使用する

この方法は、専用のツールであるpg_bulkloadを使用して、データを高速にロードおよび削除する方法です。pg_bulkloadは、通常の方法よりも高速にデータを処理できるよう設計されています。

高速にデータをロードおよび削除できる
大量データを扱う場合に有効

pg_bulkloadは別途インストールする必要がある
コマンドラインインターフェースのみのツールであるため、使い方が複雑になる場合がある

データ量が多い場合は、2. IN 演算子を使用する、3. CTE を使用する、4. バッチ処理を使用する、6. 排序と結合を使用するのような方法を検討する必要があります。
特定の条件に基づいて削除を実行する必要がある場合は、7. トリガーを使用するを検討することができます。
大量データを高速に処理する必要がある場合は、8. pg_bulkloadを使用するを検討することができます。

上記以外にも、PostgreSQLで数百万行のデータを効率的に削除するための様々なテクニックやツールが存在します。詳細は、PostgreSQLに関する書籍やブログ記事などを参照することをお勧めします。

sql postgresql bigdata