Skip to main content

ファジーマッチFAQ

以下のトピックは、ファジーマッチツールおよび関連するファジーマッチ編集一致オプションに関連する共通の質問です。

この質問に対する標準的解答というものはありません。レコード間で異なる必要があり、そのレコードがユニークである可能性があることを示すマッチングフィールドを考慮します。例えば、標準の連絡先データベースでは、名前、アドレス、電話番号でユニークな人物を識別する必要があります。多くの人が同じ都市と州を持つことができるので、これらが持つ意味は小さくなります。

複数のフィールドを使用することと、マッチングプロセスで考慮する各フィールドにどれだけの重要度や重みを与えるかの関係を理解することは重要です。例えば、名前は住所やZIP(郵便番号)ほど重要でないかもしれないので、名前に住所とZIP(郵便番号)より小さい重みを付けると、アドレスとZIP(郵便番号)が正確である場合により多くの一致が得られる可能性がありますが、名前は完全一致よりも低くスコアリングされることになります。

  • パージモード (すべてのレコードを比較) は、2つのデータセット間の一致だけでなく、個々のデータセット内の一致を検出します。1つのデータセットに対してパージモードを使用して、データベースから重複を削除したり、重複除外を行ったりすることができます。これは、2データベースのマージが実行される前の準備段階です。

  • マージ (別のソースからのレコードのみが比較されます) は、2 つの異なるデータソースからのレコードを比較します。マージを選択すると、2つのデータセット間の一致のみが検出されます。

マージモードを使用する前にデータベースを重複除外を行う必要があります。

  • マージモードでは、同じソース内の重複レコードは検出されません。

  • 一致プロセスは、重複レコードなしではより速くなります。データセット1には5つの重複があります。データセット2には10つあります。これらの重複をパージせずにマージを実行すると、一致が50個の一致ペアをチェックします。重複がパージされると、マッチは1つの一致ペアをチェックします。

ファジーマッチツールは、識別子(ID)を使用して、1つのファイルから別のファイルに、または1つのファイル内の1つの行から別の行に一致をラベル付けします。ツールはIDを使用して、どのレコードが一致するかを報告します。

IDは、ツールからの正確な出力を保証するために、異なるデータセットのレコードを含む各レコードごとにユニークである必要があります。以下の固有のIDについてのベストプラクティスを順守してください:

  • 各レコードID列の必要な開始値をよりよく理解するために、データセットのサイズを把握します。

  • 両方のデータセットストリームにレコードIDツールを追加します。

  • 異なるデータセットストリームの "開始値" を互いにいくつか大きさを変えて設定して、すべてのレコードにユニークな値が割り当てられていることを確認します。

ベストプラクティス

マスターファイルのレコードIDツールの初期値として100000000を、顧客ファイルの初期値として200000000を割り当てます。このプラクティスを一貫して使用すると、一致レコードのソースを簡単に特定できます。

パージモードでは、レコードID1とレコードID2のデータは、データセットの行識別子です。

マージモードでは、レコードID1とレコードID2は一致したIDに対応し、各データセットから1つです。異なる大きさの開始値でレコードIDを設定すると、どのデータセットが参照されているかをより簡単に認識できます。

レコードID1は、2つのIDが英数字でソートされている場合、常に一致するペアの "最初の" 値です。

ファジーマッチの一致ペアIDは、行ごとに英数字でソートされます。数値レコードIDフィールドはレコードID1をレコードID2にそれぞれ最小から最大にソートしますが、文字列レコードIDは予期しない方法でソートできます。

レコード101はレコード11と一致します。フィールドが数値として格納されている場合、レコードID1は11に、またレコードID2は101になります。フィールドが文字列として格納されている場合、レコードID1は101に、またレコードID2は11になります。

数値レコードIDフィールドに切り替えるか、先頭にレコードIDが付いている文字列がレコード間で標準化された形式を持っていることを確認してください。

ほとんどのアドレス一致シナリオでは、アドレスデータベースにデータが一貫して格納されていますが、都市と州のフィールドはマッチングでは必要ありません。 名前 アドレス 、および 郵便番号 は、より一般的に使用されている一致スタイルオプションです。データを調べて、都市または州のフィールドが適切かどうかを判断します。

以下の場合、 Double Metaphone を使用します:

  • 都市と州のフィールドは省略形ではありません。

  • フィールドにスペルミスが含まれている可能性があります。

以下の場合、 全フィールド または 全フィールド - 大文字と小文字を区別しない を使用します。

  • 州のフィールドは省略形であり、完全一致が必要です。より粒度が細い一致のプロセスに移行する場合は、通常、完全一致が必要です。

多くのアドレス一致シナリオでは、スイートのフィールドはマッチングでは必要ありません。 名前 アドレス 、および 郵便番号 は、より一般的に使用されている 一致スタイル オプションです。データを調べて、スイートのフィールドが適切かどうかを判断します。

数値付き Double Metaphone は、アドレスにスイート番号が含まれているかどうかに関わらず、任意のアドレスフィールドの好ましい一致スタイルです。また、 前処理 の下の 句読点を取り除き、米国のアドレスからユニットを削除する オプションの使用も考慮してください。

ほとんどの場合、名前フィールドを個々のコンポーネントフィールドに解析する必要はないので、より良い一致が得られることはありません。 各単語のキーを生成する オプションを Soundex アルゴリズムとともに使用して、名前フィールドキーを生成します。これは、単語の順序が考慮されないので "Cindy Smith" または "Smith, Cindy" の両方が一致と見なされることを確実にします。

名前フィールドを解析すると、各値に異なる重みを付けるときに便利です。

Rosey SmithがR Smithと一致するために、ラストネームは80%で重み付けされ、ファーストネームは20%で重み付けされます。

[ 編集...] > [前処理 ]の下の[ 句読点と挨拶を取り除く ]を使用して、一致を実行している間はこれらの単語を無視します。