Pandasのto_sql関数を使用してJSONカラムをPostgreSQLに書き込む

2024-04-12

JSONカラムを Pandas .to_sql を使って PostgreSQL に書き込む

必要なもの

Pandas
PostgreSQL クライアント (psql など)
PostgreSQL データベース

手順

データの準備

まず、JSON データを含む DataFrame を作成する必要があります。

import pandas as pd

# サンプルデータ
data = [
    {"id": 1, "name": "John Doe", "address": {"street": "123 Main St", "city": "Anytown", "state": "CA"}},
    {"id": 2, "name": "Jane Doe", "address": {"street": "456 Elm St", "city": "Anytown", "state": "NY"}},
]

# DataFrame を作成
df = pd.DataFrame(data)

データベースへの接続

次に、PostgreSQL データベースに接続する必要があります。

import psycopg2

# 接続情報
conn_string = "host=localhost dbname=mydatabase user=postgres password=mypassword"

# データベースへの接続
conn = psycopg2.connect(conn_string)

JSON カラムの書き込み

to_sql 関数を使用して、JSON データを含む列を jsonb データ型として PostgreSQL テーブルに書き込むことができます。

# テーブルの作成 (存在しない場合)
cursor = conn.cursor()
cursor.execute("CREATE TABLE IF NOT EXISTS users (id SERIAL PRIMARY KEY, name TEXT, address JSONB)")
conn.commit()

# データの書き込み
df.to_sql('users', conn, if_exists='append', index=False)
conn.commit()

検証

SELECT * FROM users;

このクエリを実行すると、以下の出力が得られます。

id | name   | address                                                                                  |
---+-------+---------------------------------------------------------------------------------------------|
1  | John Doe | {"street": "123 Main St", "city": "Anytown", "state": "CA"}                                |
2  | Jane Doe | {"street": "456 Elm St",  "city": "Anytown", "state": "NY"}                                |

これで、JSON データを含む列を Pandas の to_sql 関数を使用して PostgreSQL データベースに書き込むことができました。

補足事項

to_sql 関数には、dtype パラメータを使用して、JSON データを含む列のデータ型を指定することができます。
PostgreSQL には、jsonb データ型以外にも JSON データを格納するためのデータ型があります。詳細は PostgreSQL ドキュメントを参照してください。

import pandas as pd
import psycopg2

# サンプルデータ
data = [
    {"id": 1, "name": "John Doe", "address": {"street": "123 Main St", "city": "Anytown", "state": "CA"}},
    {"id": 2, "name": "Jane Doe", "address": {"street": "456 Elm St", "city": "Anytown", "state": "NY"}},
]

# DataFrame を作成
df = pd.DataFrame(data)

# 接続情報
conn_string = "host=localhost dbname=mydatabase user=postgres password=mypassword"

# データベースへの接続
conn = psycopg2.connect(conn_string)

# テーブルの作成 (存在しない場合)
cursor = conn.cursor()
cursor.execute("CREATE TABLE IF NOT EXISTS users (id SERIAL PRIMARY KEY, name TEXT, address JSONB)")
conn.commit()

# データの書き込み
df.to_sql('users', conn, if_exists='append', index=False)
conn.commit()

# データの検証
cursor.execute("SELECT * FROM users;")
for row in cursor.fetchall():
    print(row)

conn.close()

(1, 'John Doe', '{"street": "123 Main St", "city": "Anytown", "state": "CA"}')
(2, 'Jane Doe', '{"street": "456 Elm St",  "city": "Anytown", "state": "NY"}')

このコードを参考に、独自のニーズに合わせて調整することができます。

注意事項

このコードはあくまで例であり、本番環境で使用するためには十分なテストとセキュリティ対策が必要です。
PostgreSQL への接続情報は、環境に合わせて変更する必要があります。
JSON データを含む列のデータ型は、必要に応じて変更することができます。

JSON カラムを Pandas で PostgreSQL に書き込むその他の方法

psycopg2 ライブラリを使用して、SQL クエリを直接実行し、JSON データをパラメータとして渡すことができます。

import pandas as pd
import psycopg2

# サンプルデータ
data = [
    {"id": 1, "name": "John Doe", "address": {"street": "123 Main St", "city": "Anytown", "state": "CA"}},
    {"id": 2, "name": "Jane Doe", "address": {"street": "456 Elm St", "city": "Anytown", "state": "NY"}},
]

# DataFrame を作成
df = pd.DataFrame(data)

# 接続情報
conn_string = "host=localhost dbname=mydatabase user=postgres password=mypassword"

# データベースへの接続
conn = psycopg2.connect(conn_string)

# カーソルの取得
cursor = conn.cursor()

# テーブルの作成 (存在しない場合)
cursor.execute("CREATE TABLE IF NOT EXISTS users (id SERIAL PRIMARY KEY, name TEXT, address JSONB)")

# データの書き込み
for row in df.itertuples():
    cursor.execute("INSERT INTO users (id, name, address) VALUES (%s, %s, %s)", (row.id, row.name, json.dumps(row.address)))

conn.commit()
conn.close()

SQLAlchemy は、オブジェクト関係マッピング (ORM) ツールであり、Python から SQL データベースとやり取りするためのより高度な方法を提供します。

import pandas as pd
from sqlalchemy import create_engine

# サンプルデータ
data = [
    {"id": 1, "name": "John Doe", "address": {"street": "123 Main St", "city": "Anytown", "state": "CA"}},
    {"id": 2, "name": "Jane Doe", "address": {"street": "456 Elm St", "city": "Anytown", "state": "NY"}},
]

# DataFrame を作成
df = pd.DataFrame(data)

# エンジンの作成
engine = create_engine("postgresql://postgres:mypassword@localhost/mydatabase")

# テーブルの作成 (存在しない場合)
df.to_sql('users', engine, if_exists='append', index=False)

GeoPandas は、地理空間データ用の Pandas 拡張ライブラリであり、JSON データを含む地理空間列を PostgreSQL に書き込むための追加機能を提供します。

import geopandas as gpd
from sqlalchemy import create_engine

# サンプルデータ
data = [
    {"id": 1, "name": "John Doe", "address": {"street": "123 Main St", "city": "Anytown", "state": "CA"}, "coordinates": [-122.4194, 37.7749]},
    {"id": 2, "name": "Jane Doe", "address": {"street": "456 Elm St", "city": "Anytown", "state": "NY"}, "coordinates": [-74.0060, 40.7128]},
]

# GeoDataFrame を作成
gdf = gpd.GeoDataFrame(data, geometry=[Point(x, y) for x, y in data['coordinates']])

# エンジンの作成
engine = create_engine("postgresql://postgres:mypassword@localhost/mydatabase")

# テーブルの作成 (存在しない場合)
gdf.to_sql('users', engine, if_exists='append', index=False)