データ品質チェックリスト
このチェックリストは、生物多様性データセットのレビューに利用することができます。特に、オカレンスやサンプリングイベントのデータセットをチェックするのに適していることに注意してください。
このチェックリストは、データが完全であること、つまり5つのWに対する有効な答えが含まれていることを確認するのに役立ちます。
イベントの例としては、種の観察、物理的な標本の採取、生物的なサンプリングイベントなどがあります。
さらにチェックリストでは、データの再利用を促進するために、データセットのメタデータにも5つのWに対する回答が含まれていることを確認します。
手順
GBIFに登録されているデータセットの場合は、まずそのデータセットの「統計」ページを見てください。ここには、GBIFがそのデータセットを解釈する際に発見した一連の問題が掲載されています。
次に、データセットのメタデータを読み、データについての理解を深めます。
そして、OpenRefineにデータを読み込みます。これにより、ファセット化されたブラウジングで、データの全体像を把握することができるようになります。
5つのWには、それぞれさまざまな答えがあります。それぞれの「チェック」は、1つ以上のダーウィンコアフィールドに関連します。したがって、データセットに存在するダーウィンコアフィールドに基づいて、できるだけ多くのチェックを実行するようにしてください。
失敗したすべてのチェックのリストを作成し、各チェックを 'Check-ID' で参照しながら、データ公開者に報告します。これにより、フィードバックにかかる時間や冗長性が軽減されます。
品質チェック
何が行われたか?
どのようなイベントだったか?
Check-ID | フィールド | 条件 |
---|---|---|
what 1 |
|
発生源は |
what 2 |
|
標本保存のイベントは |
what 3 |
|
サンプリングイベントの物理的な結果で、 |
what 4 |
|
実際のサンプリングイベントは |
種のオカレンスに関するものだった場合 - 何種確認されたか?
Check-ID | フィールド | 条件 |
---|---|---|
what 5 |
|
種の存在量は |
種のオカレンスに関するものだった場合 - どの種だったか?
Check-ID | フィールド | 条件 |
---|---|---|
what 6 |
|
完全な学名と、分かっていれば著者名と日付の情報を |
what 7 |
|
サブジェクトに割り当てられたTaxonの識別子です。タクソンがよく知られているソースに従って定義されている場合、`nameAccordingTo`にソースの名前を、`nameAccordingToID`にソースに従って割り当てられたタクソンの識別子(`taxonID`と同じ)を記入することが推奨されます。 |
ケース1:カメラトラップからの生物観察
フィールド | 値 | 条件 |
---|---|---|
|
"HAMAARAG:T0_L_049:6199" |
GUIDまたはグローバルにほとんど一意な識別子である必要があります。整数の識別子は使用できません。 |
|
"MachineObservation" |
ダーウィンコアタイプ語彙に対応していなければなりません。 |
|
1 |
0以上の整数でなければなりません。 |
|
1 |
`organismQuantityType`と対になっていなければなりません。 |
|
"individuals" |
GBIF数量タイプ語彙に対応していなければなりません。 |
|
"present" |
GBIFオカレンスステータス語彙に対応していなければなりません。 |
|
"Canis aureus Linnaeus, 1758" |
完全な学名(既知の場合は著者名と日付の情報も含む)でなければなりません。 |
|
"species" |
GBIF階級語彙に対応していなければなりません。 |
|
"Animalia" |
界の完全な学名でなければなりません。 |
|
"Chordata" |
門の完全な学名でなければなりません。 |
|
"Mammalia" |
綱の完全な学名でなければなりません。 |
|
"Carnivora" |
目の完全な学名でなければなりません。 |
|
"Canidae" |
科の完全な学名でなければなりません。 |
|
"Canis Linnaeus, 1758" |
属の完全な学名でなければなりません。 |
|
またはソースに関連する識別子である必要があります。 |
|
|
"GBIF Backbone Taxonomy, May 2016" |
日付を含む引用である必要があります。 |
|
"http://www.gbif.org/dataset/d7dddbf4-2cf0-4f39-9b2a-bb099caae36c" |
GUIDまたはソースに関連する識別子である必要があります。 |
誰がおこなったか?
Check-ID |
フィールド |
条件 |
who 1 |
|
イベントで活動した各人物のフルネーム(例:収集、観察など)を、縦棒を区切りとして |
who 2 |
|
イベントで活動する機関の名前または頭文字を`institutionCode`と`ownerInstitutionCode`に入力することができます。これらは異なる場合があるので、`institutionCode`は検体の物理的な保管を、`ownerInstitutionCode`は検体の法的な所有権を持つことが可能です。 |
who 3 |
|
生物の同定に責任がある各個人、グループ、機関のフルネームを縦棒を区切りとして入力する必要があります。 |
いつ行われたか?
Check-ID | フィールド | 条件 |
---|---|---|
when 1 |
|
|
when 2 |
|
元の値をISO 8601に変換する必要がある場合は、 |
when 3 |
|
一見冗長に見えますが、単一の日付/時刻の場合は |
when 4 |
|
一見冗長に見えますが、日付範囲の |
when 5 |
|
もし |
ケース1:単一の日付
Field | Value | Constraint |
---|---|---|
|
2007-03-20 |
ISO 8601フォーマットに従っていなければならない |
|
2007 |
4桁の西暦でなければならない |
|
3 |
1~12の数値で指定されなければならない |
|
20 |
1~31の数値で指定されなければならない |
|
79 |
1~366の数値で指定されなければならない |
|
"Mar 20, 07" |
日付のオリジナル表記またはその詳細 |
ケース2:日付・時間の範囲が数日にわたる
フィールド | 値 |
---|---|
|
2007-03-20T00:00:00Z/2007-03-27T06:00:00Z |
|
00:00:00Z/06:00:00Z |
|
2007 |
|
3 |
|
|
|
79 |
|
86 |
|
"The third week in March 07, for 6 hours starting at midnight." |
どこで行われたか?
Check-ID | フィールド | 条件 |
---|---|---|
where 1 |
|
|
where 2 |
|
特定の形状の位置を提供するために、`footprintWKT`にその形状のWKT(Well-Known Text)表現を入力してください。その形状が基づいている対応する空間参照系は、EPSGコード(例:"EPSG:4326")を使用して`footprintSRS`に入力する必要があります。 |
where 3 |
|
|
where 4 |
|
元の地点の座標を、度分秒などの別の座標系から変換しなければならなかった場合 |
where 5 |
|
ポイントの位置が元の形よりも特定されないように処置された場合や、座標`UncertaintyInMeters`が非常に高い場合は、`dataGeneralizations`で説明を提供する必要があります。 |
where 6 |
|
ポイントの位置が存在するはずなのに入力されていない場合、`informationWitheld`で説明を付す必要があります。 |
where 7 |
|
もしポイントの位置が存在しないか、または(GPSの読みからではなく)ポイントの位置がグリッドセルの中心から計算されている場合、`georeferenceRemarks`に説明を加える必要があります。 |
where 8 |
|
また、場所に関するできるだけ多くの補足情報を加える必要があります。もし |
ケース1:地点の座標が度分秒から10進数に変換された
フィールド | 値 | 条件 |
---|---|---|
|
42.4566 |
-90~90でなければなりません。 |
|
-76.45442 |
-180~180でなければならない。 |
|
"EPSG:4326" |
理想的にはEPSGコード または統制語彙からのもので、そうでない場合は "unknown" となる。 |
|
500 |
ゼロは有効な値ではありません。 |
|
42° 27' 23.76", -76° 27' 15.91" |
|
|
42° 27' 23.76" |
|
|
-76° 27' 15.91" |
|
|
"degrees minutes seconds" |
|
|
"North America" |
Getty 地名シソーラスに従った適切な英語名でなければなりません。 |
|
"United States" |
Getty 地名シソーラスに従った適切な英語名でなければなりません。 |
|
"US" |
ISO 3166-1-alpha-2 国名コードに従う必要があります。 |
|
"New York" |
|
|
"Tomkins County" |
|
|
"Ithaca, Forest Home, CU Rifle Range" |
その場所の具体的な説明である必要があります。 |
ケース2:一般化されたポイントの位置
フィールド | 値 |
---|---|
|
42.44 |
|
-76.33 |
|
"EPSG:4326" |
|
5000 |
|
"Point location obscured by a factor of 5000m" |
なぜ行われたか?
Check-ID | フィールド | 条件 |
---|---|---|
why 1 |
|
|
ケース1:バタフライ・モニタリング・スキームのため
フィールド | 値 | 条件 |
---|---|---|
|
"Pollard walks" |
メソッドまたはサンプリングプロトコルを参照する短い名前またはURLでなければなりません。 |
|
250 |
|
|
"square_metre" |
測定単位に関する語彙にマッチする必要があります。 |
|
"Average of 30 Minutes walk along transect" |
自由形式で記述することができます。 |
|
"No occurrences of Lepidoptera recorded for entire transect" |
自由形式で記述することができます。 |
データセットのメタデータ
データセットのメタデータは、データの再利用を容易にすると同時に、誤った解釈を防ぐのに十分な情報を含んでいなければなりません。また、公開者はデータ作成に費やした厳密さの証明を提供し、さまざまな貢献者や資金提供者を認識する必要があります。最終的には、これが新たな協力関係や資金源につながるかもしれません。
フィールド | 条件 | 例 |
---|---|---|
|
データセットの内容を説明し、他と区別するための簡潔な名前です。 |
"Reef Life Survey: Global reef fish dataset", "Insects from light trap (1992–2009), rooftop Zoological Museum, Copenhagen" |
|
データセットの内容を説明する短い文章(要旨)。 |
"This dataset contains records of bony fishes and elasmobranchs collected by Reef Life Survey (RLS) divers along 50 m transects on shallow rocky and coral reefs, worldwide. Abundance information is available for all records found within quantitative survey limits (50 x 5 m swathes during a single swim either side of the transect line, each distinguished as a Block), and out-of-survey records are identified as presence-only (Method 0)." |
|
このリソースを公開(制作、リリース、保有)する責任を負う組織です。 |
"Reef Life Survey" |
|
3つの機械可読オプション(CC0 1.0、CC-BY 4.0、CC-BY-NC 4.0)のいずれかでなければならず、データセットの適切な利用を定義するための標準的な方法を提供するものです。 |
"This work is licensed under a Creative Commons Attribution (CC-BY) 4.0 License." |
|
データセットを作成した人および機関(優先順位付き)。ORCIDやResearcherIDのような人物の識別子を使用することが強く推奨されます。 |
"John Smith, jsmith@gbif.org, http://orcid.org/0000-0002-1825-0097" |
|
データセットのメタデータを作成した人および機関。ORCIDやResearcherIDのような人物の識別子を使用することが強く推奨されます。 |
"John Smith, jsmith@gbif.org, http://orcid.org/0000-0002-1825-0097" |
|
リソースに関する詳細な情報を得るため、あるいはデータセットに関する問題を解決するために連絡を取るべき人々や機関。ORCIDやResearcherIDのような人物の識別子を使用することが強く推奨されます。 |
"John Smith, jsmith@gbif.org, http://orcid.org/0000-0002-1825-0097" |
|
GUIDまたはグローバルに一意に近いその他の識別子です。BIDプロジェクトでは必須ですので注意してください。 |
"BID-AF2015-0134-REG" |
|
データセットを作成する際に使用したサンプリング方法に関する情報(雑誌論文の方法セクションと同様)です。サンプリングイベントのデータセットでは必須です。 |
こちらを参照 |
|
データセットの引用方法。IPT引用形式(DataCiteの推奨する引用形式に基づいており、データ引用の原則の共同宣言を満たしている)の使用を強く推奨します。 |
"Edgar G J, Stuart-Smith R D (2014): Reef Life Survey: Global reef fish dataset. v2.0. Reef Life Survey. Dataset/Sampling event. http://doi.org/10.15468/qjgwba" |