C#、SQL、LINQ to SQLにおける重複レコード処理の比較

2024-06-30

C#, SQL、LINQにおけるテーブルの単一フィールドに基づく重複排除

LINQは、テーブル内の重複レコードを排除するための便利な機能であるDistinctを提供しています。しかし、デフォルトではすべての列に基づいて重複排除が行われるため、特定の列のみを基に重複排除したい場合は、追加の処理が必要となります。

C#での実装

C#の場合、以下のコード例のようにGroupByとFirstOrDefaultメソッドを組み合わせて、特定の列に基づいた重複排除を実現できます。

var distinctValues = table.GroupBy(row => row.TargetField)
                         .Select(group => group.FirstOrDefault());

このコードは、tableテーブルからTargetField列の値に基づいてレコードをグループ化し、各グループの最初のレコードのみを抽出します。結果として、TargetField列の値が重複しないレコードのコレクションが得られます。

SQLでの実装

SQLの場合、以下のクエリを使用して、特定の列に基づいた重複排除を実現できます。

SELECT DISTINCT TargetField FROM table;

このクエリは、TargetField列の値が重複しないレコードのみを抽出します。

LINQ to SQLの場合、以下のコード例のように、DistinctメソッドとSelect句を組み合わせて、特定の列に基づいた重複排除を実現できます。

var distinctValues = (from row in table
                     select row.TargetField).Distinct();

このコードは、tableテーブルからTargetField列の値を抽出하고、重複排除された結果を返します。

補足

上記のコード例はあくまでも基本的な例であり、具体的な実装はデータソースや要件に応じて調整する必要があります。
複数の列に基づいて重複排除を行う場合は、GroupByメソッドのキーセレクターを複数指定する必要があります。
性能を向上させるために、インデックスを活用することが重要です。

using System.Linq;

class Person
{
    public string Name { get; set; }
    public int Age { get; set; }
}

class Program
{
    static void Main(string[] args)
    {
        // データソースの作成
        var persons = new List<Person>()
        {
            new Person { Name = "John", Age = 30 },
            new Person { Name = "Jane", Age = 25 },
            new Person { Name = "John", Age = 30 },
            new Person { Name = "Jane", Age = 25 },
            new Person { Name = "Mary", Age = 28 },
        };

        // 特定の列に基づいた重複排除
        var distinctNames = persons.GroupBy(p => p.Name)
                                  .Select(g => g.FirstOrDefault());

        // 結果の表示
        foreach (var person in distinctNames)
        {
            Console.WriteLine($"Name: {person.Name}");
        }
    }
}

このコードでは、Personクラスと、そのインスタンスを含むpersonsリストを作成します。その後、GroupByとFirstOrDefaultメソッドを使用して、Name列の値に基づいて重複排除を行い、結果をdistinctNames変数に格納します。最後に、distinctNamesの内容をコンソールに出力します。

SQL

SELECT DISTINCT Name FROM Persons;

LINQ to SQL

using System.Data.Linq;

class PersonDataContext : DataContext
{
    public Table<Person> Persons { get; set; }
}

class Program
{
    static void Main(string[] args)
    {
        // データソースの作成
        var connectionString = "Data Source=localhost;Initial Catalog=MyDatabase;Integrated Security=True";
        var dataContext = new PersonDataContext(connectionString);

        // 特定の列に基づいた重複排除
        var distinctNames = (from person in dataContext.Persons
                             select person.Name).Distinct();

        // 結果の表示
        foreach (var name in distinctNames)
        {
            Console.WriteLine($"Name: {name}");
        }
    }
}

他の方法

ToDictionaryメソッドを使用する:

var distinctValues = persons.ToDictionary(p => p.Name).Values;

このコードは、personsリストをName列の値をキーとする辞書に変換し、その値のコレクションをdistinctValues変数に格納します。

HashSetクラスを使用する:

var distinctNames = new HashSet<string>(persons.Select(p => p.Name));

GROUP BY句とHAVING句を使用する:

SELECT Name FROM Persons
GROUP BY Name
HAVING COUNT(*) = 1;

ROW_NUMBERウィンドウ関数を使用する:

SELECT Name
FROM (
    SELECT Name,
           ROW_NUMBER() OVER (PARTITION BY Name ORDER BY Name) AS rn
    FROM Persons
) AS t
WHERE rn = 1;

Distinctメソッドとサブクエリを使用する:

var distinctNames = (from person in dataContext.Persons
                     where (from p in dataContext.Persons
                           select p.Name).Distinct().Contains(person.Name)
                     select person.Name).Distinct();