PostgreSQLでテキストデータを圧縮する方法：TOAST、TimescaleDB、その他

2024-06-19

PostgreSQLにおけるテキスト圧縮の解説

TOASTによる圧縮

PostgreSQLでは、TOASTと呼ばれる技術を使用して、大きなテキストデータを圧縮します。TOASTは、大きな値を格納するために、テーブルとは別の専用の領域を使用します。圧縮対象となるテキストデータが閾値を超えると、TOASTによって圧縮され、専用の領域に格納されます。

PostgreSQLはデフォルトでpglz圧縮アルゴリズムを使用しますが、zlibやbzip2などの他のアルゴリズムも利用可能です。圧縮アルゴリズムは、CREATE TABLE or ALTER TABLEコマンドを使用して指定できます。

TOASTによる圧縮の利点:

ストレージ領域の節約
I/O負荷の軽減 *パフォーマンスの向上

圧縮・解凍処理にCPUオーバーヘッドが発生する
すべてのデータ型が圧縮対象となるわけではない

TimescaleDBは、PostgreSQL向けの拡張機能であり、列指向圧縮と呼ばれる技術を使用して、テキストデータを圧縮することができます。列指向圧縮は、個々の列を圧縮する技術で、TOASTよりも高い圧縮率を実現できます。

TimescaleDBは、独自の圧縮アルゴリズムを使用しており、様々なデータ型を圧縮することができます。また、圧縮されたデータに対して、クエリのパフォーマンスを維持することができます。

TimescaleDBによる列圧縮の利点:

TOASTよりも高い圧縮率
高速なクエリ実行

TimescaleDBの拡張機能をインストールする必要がある

その他の圧縮方法

PostgreSQLには、TOASTとTimescaleDB以外にも、テキストデータを圧縮する方法があります。

pg_lz4: LZ4圧縮アルゴリズムを使用した圧縮方法です。TOASTよりも高速な圧縮・解凍処理を実現できます。

これらの圧縮方法は、CREATE TABLE or ALTER TABLEコマンドを使用して指定できます。

適切な圧縮方法の選択

どの圧縮方法を選択するかは、データの種類、ストレージ要件、パフォーマンス要件などを考慮する必要があります。

一般的には、以下の通りです。

テキストデータが多い場合は、TOASTまたはTimescaleDBによる圧縮が有効です。
I/O負荷を軽減したい場合は、pg_lz4圧縮が有効です。
高い圧縮率が必要な場合は、zstd圧縮が有効です。

注:

上記の情報は、PostgreSQL 14.0時点の情報に基づいています。
圧縮機能を使用する前に、PostgreSQLのドキュメントを参照することをお勧めします。

PostgreSQLにおけるテキスト圧縮のサンプルコード

TOASTによる圧縮

以下のコードは、usersというテーブルを作成し、name列をpglz圧縮で圧縮します。

CREATE TABLE users (
  id serial PRIMARY KEY,
  name varchar(255) NOT NULL,
  email varchar(255) UNIQUE NOT NULL
);

ALTER TABLE users
ALTER COLUMN name SET STORAGE COMPRESSED;

TimescaleDBによる列圧縮

以下のコードは、TimescaleDBを使用して、eventsというテーブルを作成し、description列を圧縮します。

CREATE EXTENSION IF NOT EXISTS timescaledb;

CREATE TABLE events (
  id serial PRIMARY KEY,
  timestamp timestamp NOT NULL,
  description text,
  location varchar(255)
);

SELECT create_hypertable('events', 'timestamp', time_buckets_size => 2);

その他の圧縮方法

以下のコードは、pg_lz4圧縮を使用して、logsというテーブルを作成します。

CREATE TABLE logs (
  id serial PRIMARY KEY,
  message text NOT NULL
);

ALTER TABLE logs
ALTER COLUMN message SET STORAGE COMPRESSED WITH (comptype = lz4);

これらの例は、PostgreSQLにおけるテキスト圧縮の使用方法を理解するための出発点として役立ちます。圧縮機能を使用する前に、PostgreSQLのドキュメントを参照することをお勧めします。

上記のコードは、PostgreSQL 14.0時点のものであり、以降のバージョンでは変更されている可能性があります。
圧縮機能を使用する前に、データベースのバックアップを取ることをお勧めします。

PostgreSQLにおけるテキスト圧縮のその他の方法

トリガーを使用して、データが挿入または更新されるたびにデータを圧縮することができます。これは、更新頻度の高いデータに対して有効な方法です。

例:

CREATE TABLE my_table (
  id serial PRIMARY KEY,
  data text
);

CREATE OR REPLACE FUNCTION compress_data()
RETURNS TRIGGER AS $$
BEGIN
  UPDATE my_table
  SET data = pg_lz4_compress(NEW.data)
  WHERE id = NEW.id;
  RETURN NEW;
END;
$$ LANGUAGE plpgsql;

CREATE TRIGGER compress_data
AFTER UPDATE ON my_table
FOR EACH ROW
EXECUTE PROCEDURE compress_data();

ビューを使用して、圧縮されたデータの読み取りと書き込みを行うことができます。これは、圧縮されたデータを直接操作したくない場合に役立ちます。

CREATE TABLE my_table (
  id serial PRIMARY KEY,
  data text
);

CREATE MATERIALIZED VIEW compressed_data AS
SELECT id, pg_lz4_compress(data) AS compressed_data
FROM my_table;

SELECT * FROM compressed_data;

UPDATE compressed_data
SET compressed_data = pg_lz4_compress(NEW.data)
WHERE id = NEW.id;

カスタム圧縮アルゴリズム

PostgreSQLは、独自の圧縮アルゴリズムを実装することができます。これは、高度な制御が必要な場合や、特定のデータ型に特化した圧縮が必要な場合に役立ちます。

#include <postgres/utils/pglz4.h>

PG_FUNCTION_DEF(my_compress)
{
  char *data = PG_GETARG_BYTEA(0);
  size_t data_len = PG_GETARG_INT32(1);
  bytea *result;

  result = palloc(data_len);
  if (result == NULL)
    return NULL;

  if (pglz4_compress(result, result + sizeof(int), data, data_len) != 0)
  {
    pfree(result);
    return NULL;
  }

  PG_SETARG_INT32(2, sizeof(int) + *((int *)result));
  return result;
}

PG_FUNCTION_DEF(my_decompress)
{
  bytea *data = PG_GETARG_BYTEA(0);
  size_t data_len = PG_GETARG_INT32(1);
  char *result;
  size_t decompressed_len;

  if (data_len < sizeof(int))
    return NULL;

  decompressed_len = *((int *)data);
  result = palloc(decompressed_len);
  if (result == NULL)
    return NULL;

  if (pglz4_decompress(result, data + sizeof(int), data_len - sizeof(int)) != 0)
  {
    pfree(result);
    return NULL;
  }

  PG_SETARG_INT32(2, decompressed_len);
  return result;
}