發布調查活動資料的最佳實務導引
版本 2.2
引用建議
GBIF (2018) Best Practices in Publishing Sampling-event data, version 2.2. Copenhagen: GBIF Secretariat. https://ipt.gbif.org/manual/en/ipt/3.0/best-practices-sampling-event-data
介紹
本導引詳細說明如何使用達爾文核心集檔案格式(DwC-A)作為一種標準化方式來分享調查活動的相關資訊。內容聚焦於達爾文核心集檔案格式的具體組成部分及支持核心活動資料類別的一些延伸資料集,並提出如何最佳化使用這些組成部分的相關建議,以最大化共享資料的價值。此導引未提供達爾文核心集檔案格式的詳細概述,如需更多資訊,請參閱 達爾文核心集檔案 — 操作導引。
DwC-A 格式及本文描述的特定配置是國際公認並通過的資料交換格式,用於共享調查活動資料。所有資料交換標準都必須在技術範疇與社會接受度之間取得平衡。簡單的解決方案犧牲了覆蓋範圍和複雜性,換取簡易性;而高度複雜的格式則能更全面地表達各種資料類型,但以犧牲簡易性為代價,並需要與之匹配的軟體及專業知識。達爾文核心標準格式介於這兩者之間,專注於調查活動資料的關鍵要素,並允許將多樣的資料類型與此核心結構連結。檔案中的資料可以被熟悉基本結構化文字檔案的生態學家及資料管理者輕鬆理解和使用。藉由此國際標準,GBIF 希望促進調查活動資料的分享,並推廣一個共通的方法來引用及認可創建與管理調查活動資料的社群貢獻。 一個標準化的格式還能增加資料的使用相關性和實用性。
什麼是調查活動(sampling-event)資料?
調查活動資料是來自數千個環境、生態及自然資源調查的資料類型。這些資料可以是一次性研究或監測計畫的產物,通常具有定量性、校準性,並遵循某些協議,以便偵測族群的變化與趨勢。這與機會觀察及採集資料形成對比,後者目前佔公開生物多樣性資料的很大比例。
如何以 DwC-A 表現調查活動資料?
達爾文核心集檔案(DwC-A)是一種資訊學資料標準,使用達爾文核心標準詞彙生成單一、獨立的資料集,用於物種名錄資料。檔案中的文件集合形成一個完整的資料集,可以作為單一壓縮檔案(Zip 或 GZIP)提供。一個資料集由一個描述性的詮釋資料文件和一個或多個資料檔案組成。更多有關 DwC-A 的資訊,請參閱 達爾文核心集檔案 — 操作導引。
調查活動的詮釋資料
通過 GBIF 網路發布調查活動資料時,需要記錄資料集的來源及範疇。資料集的記錄被稱為“資源詮釋資料”,允許使用者評估資料集的適用性。詮釋資料可能描述其彙編所使用的調查方法,以及參與創建與管理的個人及組織。在達爾文核心集檔案中,詮釋資料以 XML 文件形式共享。GBIF 為調查活動資料集提供了基於生態詮釋資料語言的詮釋資料配置文件範本。如何使用此格式描述調查活動資料集的導引請參閱 GBIF 詮釋資料設定檔—操作導引。
調查活動資料
達爾文核心集檔案格式提供了一個特定的結構框架,用於發布調查活動資料。檔案由一系列一個或多個文字檔案組成,採用標準逗號分隔或製表符分隔格式。這些檔案以星狀結構排列,包含一個*核心檔案*,列出調查活動(如調查協議、樣本數、地點等),並由多個“延伸資料集”環繞,描述相關的資料類型(如物種出現jilt、與調查活動相關的測量或事件等)。核心檔案與延伸紀錄之間的連結使用事件標識符(eventID)資料元素完成。這種“星狀結構”提供了一種簡單的關聯資料模型,支援多種類型的調查活動資料集註解類型。
一種替代方式來編碼調查活動資料,是將物種出現紀錄列在核心檔案中,並圍繞其使用多個延伸資料集來描述相關的資料類型(例如與物種出現相關的測量資料等)。請注意,如果研究的主要焦點是樣地或站點,則建議在核心檔案中列出調查活動。
需要注意的是,目前的 DwC-A 星狀架構存在一些限制。例如,它無法在同一資料集中將測量和事件同時連結到活動和出現紀錄。有關此原型延伸資料集的討論正在 GitHub 上進行,但尚未有解決方案。
請檢查 調查活動的資料品質要求。如果您手動生成達爾文核心集檔案,可能需要添加一個 recordID 欄位以包含唯一識別碼。(如果您使用 IPT,此欄位將自動生成。)有關達爾文核心集檔案結構的更多資訊,請參考 TDWG 達爾文核心標準文本導引。您也可以使用 GBIF 資料驗證工具檢查您的檔案。
資料文件格式建議
為了便於理解,我們在本導引中可能使用*欄位*一詞來指代調查活動發布檔案設定檔中的達爾文核心標準詞彙。這些詞彙將對應到使用者的資料。例如,當提到達爾文核心標準詞彙 scientificName 時,我們將稱其為 dwc:scientificName 欄位。
-
建議使用標籤或逗號分隔值(CSV),避免使用自訂欄位分隔符號及引號。
-
注意並保持引號的使用一致。
-
將文字文件編碼為 UTF-8。
-
確保替換資料欄位中的所有換行符號,例如
\r
、\n
或\r\n
,可以用空格代替,或者用如$$
的雙字符來替代\r
以保留換行。另一種選擇是使用 HTML 的<br>
標籤來作為換行符號。 -
將空值編碼為空字串,例如分隔符號之間不包含任何字符,或者使用
\N
或\NULL
,但請勿使用其他文字序列!
樣本數
以下為達爾文核心標準用於存儲調查活動樣本數的欄位:
-
sampleSizeValue: 數值,用於測量調查活動樣本的大小(如持續時間、長度、面積或體積)。
-
sampleSizeUnit: 測量樣本大小(如持續時間、長度、面積或體積)的單位。
sampleSizeValue 的值必須是數字,並且必須有相應的 sampleSizeUnit。sampleSizeUnit 的值應限制為僅使用國際單位制 (SI) 單位/衍生單位,或國際單位制接受的非 SI 單位(例如分鐘、小時、天、升),依照 測量單位詞彙。下表提供了一些示例:
可以使用適當的 WKT 形狀或緯度/經度點位置表示調查區域。如果操作正確,還可以推導出調查方向。例如,使用 WKT 形狀 LINESTRING 表示的海洋拖網線,可以根據起點和終點的標準標記法確定拖網的方向。
sampleSizeValue | sampleSizeUnit |
---|---|
2 |
hour |
3 |
m2 |
17 |
km |
1 |
litre |
數量與豐度
以下達爾文核心欄位也需要成對使用:
-
organismQuantity: 數值或枚舉值,表示生物數量。
-
organismQuantityType: 表示生物數量所使用的量化系統類型。
表2列出了一些示例值。organismQuantity 的值可以是數字或枚舉值,例如:“27”(當 organismQuantityType 為 “individuals” 時),12.5(當 organismQuantityType 為 “%biomass” 時),或 r(當 organismQuantityType 為 “BraunBlanquetScale” 時)。organismQuantityType 的值應從控制詞彙中選取,例如 “Individuals”、“%Biomass”、“%Biovolume”、“%Species”、“%Coverage”、“BraunBlanquetScale”、“DominScale”。以下是一些與 organismQuantity 結合的範例:“+” 對應於 “DominScale”;5 對應於 “BraunBlanquetScale”;45 對應於 “%Biomass”。
organismQuantity | organismQuantityType |
---|---|
14 |
individuals |
r |
BraunBlanquetScale |
0.4 |
%Species |
31 |
%Biomass |
如何唯一識別調查活動
每個活動透過 dwc:eventID 唯一識別,有時也會使用 dwc:parentEventID。雖然標識符的類型和格式是任意的,但建議發布者選擇持久的全域唯一識別碼。如果沒有 GUID,發布者可以重複使用原始的 fieldNumber。
請確保重用現有的穩定標識符,當活動已有標識符時,請勿重新創建新標識符。
如何掌握調查活動的層次結構
調查活動之間可以相互關聯(例如,巢狀樣本)並共享一個共同的父標識符。例如,某 Whittaker 採樣地中的幾個子調查活動,各自擁有自己的 eventID(例如:“A1:1”、“A1:2”),可共享一個共同的 parentEventID(例如:“A1”),從而使它們能夠相互連結(見表4和圖3)。
更多關係性資訊(例如屬於某監測系列)可以在附加詮釋資料的專案部分中描述。
您也可以參考 常見問題。
如何找出缺失資料
請參考 常見問題。
發布調查活動資料
使用 GUID 作為識別碼
以下多個欄位需要使用唯一識別碼:dwc:occurrenceID、dwc:eventID、dwc:organismID 和 dwc:locationID。
如前所述,雖然沒有強制要求特定格式,但建議發布者使用全域唯一識別碼 (GUID)。一些線上服務可以提供此類識別碼。例如,您可以使用 http://www.geonames.org/ 來查找(甚至生成新的)dwc:locationID 識別碼,例如:http://sws.geonames.org/10793757/ 是格陵蘭一座湖泊的 GUID。
保護敏感物種的位置
如果資料集中包含敏感物種,有以下幾種處理方式:
-
將這些物種從資料集中移除;
-
僅發布到屬級的物種鑑定結果;
-
將敏感/受保護的物種發布為單獨的資料集;
-
在主資料集中發布模糊化的敏感資料點,並在一個存取受限的獨立資料集中發布未模糊化的詳細資訊,兩個資料集都應包括完整的資料紀錄。
保留原始資料
雖然原始資料和說明不會顯示在 GBIF.org 的網頁介面上,但它們可以通過下載提供給社群使用。輸入原始資料的說明時,請確保將其連結到原始活動或出現紀錄。例如,應將原始活動的 ID 或代碼輸入到 dwc:fieldNumber,並將原始出現觀察紀錄的 ID 或代碼輸入到 dwc:recordNumber。
將出現紀錄資料重新發布為調查活動資料
調查活動資料能提供更好的紀錄文件,惠及科學界和政策制定者(https://www.gbif.org/sampling-event-data[閱讀更多])。我們強烈建議在可能的情況下,將出現紀錄資料重新發布為調查活動資料。
為此,您需要創建一個新的調查活動資料集,並將電子郵件發送至 GBIF 的服務台(helpdesk@gbif.org)。在郵件中,請提供出現紀錄資料集和新資料集的 UUID。我們將能夠在取消索引前,將第一個資料集與最新資料集連結,以避免資料重複並保留引用。
在資料集詮釋資料中描述調查活動資料
發布者應盡可能詳細記錄資料集,尤其是調查方法。
除了https://www.gbif.org/data-quality-requirements-sampling-events[強制要求的部分],詮釋資料應包括關於研究範圍、調查方法、品質控制和研究限制的資訊。雖然田野工作資訊可以作為資料內容的一部分,您也可以在詮釋資料中描述調查位置和條件。
範例
以下是一些典型調查活動資料集的範例。在每個案例中,均提供了調查活動核心集和物種出現紀錄延伸資料集中的關鍵欄位。某些範例還包含其他延伸資料集,例如樣區紀錄(Relevé)和“測量與事實”(Measurement-or-Fact)。
淡水無脊椎動物調查
核心集(調查活動)表格
EventID | samplingProtocol | sampleSizeValue | sampleSizeUnit | eventDate | location | decimalLatitude | decimalLongitude |
---|---|---|---|---|---|---|---|
C_1428 |
AQEM |
1.25 |
m^2 |
2006-06-21 |
Kinzig O3 Rothenbergen |
50.18689 |
9.100369 |
B_1538 |
AQEM |
1.25 |
m^2 |
2008-11-06 |
Kinzig W3 Bulau |
50.1316 |
8.9657 |
延伸集(出現紀錄)表格
EventID | scientificName | organismQuantity | organismQuantityType | … |
---|---|---|---|---|
C_1428 |
Baetis rhodani |
14 |
individuals |
|
C_1428 |
Ephemera danica |
15 |
individuals |
|
C_1428 |
Gyraulus albus |
2 |
individuals |
|
B_1538 |
Serratella ignita |
318 |
individuals |
說明
Ephemera danica: 在此次調查活動中,從 1.25 平方公尺內取得了共 14 隻個體。每平方公尺衍生的個體數為 11.2 (14/1.25)。
鹹淡水無脊椎動物調查
核心集(調查活動)表格
EventID | samplingProtocol | sampleSizeValue | sampleSizeUnit | startDayOfYear | endDayOfYear | year | location | decimalLatitude | decimalLongitude | … |
---|---|---|---|---|---|---|---|---|---|---|
IA1 |
hand operated van Veen grab |
0.04 |
m^2 |
147 |
154 |
1995 |
Gialova lagoon |
36.9564 |
21.6661 |
|
IA3 |
hand operated van Veen grab |
0.04 |
m^2 |
147 |
154 |
1995 |
Gialova lagoon |
36.9564 |
21.6661 |
延伸集(出現紀錄)表格
EventID | scientificName | organismQuantity | organismQuantityType | … |
---|---|---|---|---|
IA1 |
Abra ovata |
57 |
individuals |
|
IA3 |
Bittium reticulatum |
113 |
individuals |
延伸集(測量與事實)表格
EventID | measurementType | measurementValue | measurementUnit | measurementRemarks | … |
---|---|---|---|---|---|
IA1 |
Tmp (sed) |
21.5 |
Degree C |
temperature at the bottom surface |
— |
IA1 |
Rdx (sed)0 |
170 |
mv |
Eh value at the bottom surface (0cm) |
— |
說明
Abra ovata: 在調查活動 IA1 中,從 0.04 平方公尺內取得了共 57 隻個體。
每個調查活動也可以關聯測量或事實,例如沉積物溫度和氧化還原電位(Eh)等環境測量值。
大型水生植物調查
此範例基於荷蘭植被資料庫(LVD)以前版本的資料,重新發布為調查活動資料集。自初步指南發布後,樣區紀錄(Relevé)延伸資料集有了大幅度的更改。有關 LVD 和植被調查活動資料模型的更多資訊,請參見:https://gbif.blogspot.com/2016/07/probably-turbovegs-best-kept-secret.html。
EventID | samplingProtocol | sampleSizeValue | sampleSizeUnit | eventDate | location | decimalLatitude | decimalLongitude | … |
---|---|---|---|---|---|---|---|---|
1001 |
Braun Blanquet |
100 |
m^2 |
09/08/2012 |
Kinzig O3 Rothenbergen |
50.18689 |
9.100369 |
延伸集(出現紀錄)表格
EventID | scientificName | organismQuantity | organismQuantityType | … |
---|---|---|---|---|
1001 |
Acer psuedoplatanus |
r |
BraunBlanquetScale |
延伸集(樣區紀錄)表格
EventID | syntaxonCode | inclination | coverTotal | treesCover | coverShrubs | highTreeLayerHeight | highHerbLayerMeanHeight | mossesIdentified | … |
---|---|---|---|---|---|---|---|---|---|
1001 |
843200 |
40 |
100 |
95 |
50 |
25 |
40 |
Y |
— |
說明
Acer pseudoplatanus: 在調查的 100 平方公尺內,該物種的豐度以 Braun Blanquet 位階中的 "r" 被回報。
其他植被樣地測量,如植被群落類型 (syntaxon) 的覆蓋率百分比值,通常會記錄在 TurboVeg 類型資料庫中,並存放於樣區紀錄(植被樣地)延伸資料集中。
鱗翅目調查 I
核心集(調查活動)表格
EventID | samplingProtocol | sampleSizeValue | sampleSizeUnit | startDayOfYear | endDayOfYear | year | location | decimalLatitude | decimalLongitude | … |
---|---|---|---|---|---|---|---|---|---|---|
2320 |
Jalas-model light trap with 160W ML matt lamp |
16 |
day |
164 |
180 |
1999 |
Kungsmarken |
55.72 |
13.28 |
… |
延伸集(出現紀錄)表格
EventID | scientificName | organismQuantity | organismQuantityType | … |
---|---|---|---|---|
2320 |
Opisthograptis luteolata |
11 |
individuals |
說明
Opisthograptis luteolata: 在 16 天的調查期間,觀察到 11 隻個體。每天的衍生個體數為 0.68 (11/16)。
鱗翅目調查 II
核心集(調查活動)表格
EventID | samplingProtocol | sampleSizeValue | sampleSizeUnit | eventDate | location | decimalLatitude | decimalLongitude | … |
---|---|---|---|---|---|---|---|---|
1014-tr023m |
Pollard walks |
250 |
m^2 |
2012-10-11 |
Ramat Hanadiv botanik garden |
32.553191 |
34.947492 |
|
1012-tr006-s5 |
Pollard walks |
250 |
m^2 |
2012-05-02 |
Carmel Hurshan haarbaim |
32.75789805 |
35.02697333 |
延伸集(出現紀錄)表格
EventID | scientificName | organismQuantity | organismQuantityType | … |
---|---|---|---|---|
1014-tr023m |
Pieris rapae |
1 |
individuals |
|
1014-tr023-s5 |
Maniola telmessia |
2 |
individuals |
延伸集(測量與事實)表格
EventID | measurementType | measurementValue | measurementUnit | measurementRemarks | … |
---|---|---|---|---|---|
1014-tr023m |
Temp |
20 |
Degree C |
||
1014-tr023m |
Wind speed |
light |
|||
1014-tr023m |
Cloudiness |
0 |
Level 1 of 8 |
||
1014-tr023m |
AvgAltitude |
10 |
m |
Average altitude |
說明
Pieris rapae: 在此調查活動中,從 250 平方公尺內取得了共 1 隻個體。 測量與事實延伸集中包含了多項環境測量值(例如溫度、風速和雲量)。
珊瑚礁魚類調查
核心集(調查活動)表格
EventID | samplingProtocol | sampleSizeValue | sampleSizeUnit | eventDate | location | decimalLatitude | decimalLongitude | … |
---|---|---|---|---|---|---|---|---|
506003329 |
Reef Life Survey methods |
500 |
m^2 |
2006-09-02 |
Cocos Islands |
5.56187 |
-87.04693 |
|
57003326 |
Reef Life Survey methods |
500 |
m^2 |
2006-12-11 |
Panama Bight |
4.008553 |
-81.605377 |
延伸集(出現紀錄)表格
EventID | scientificName | organismQuantity | organismQuantityType | … |
---|---|---|---|---|
506003329 |
Acanthurus nigricans |
42 |
individuals |
|
506003329 |
Acanthurus xanthopterus |
1 |
individuals |
|
506003329 |
Aulostomus chinensis |
4 |
individuals |
|
506003329 |
Axoclinus cocoensis |
1 |
individuals |
說明
Aulostomus chinensis: 在此調查活動中,從 500 平方公尺內取得了共 4 隻個體。
嵌套樣本
EventID | parentEventID | samplingProtocol | sampleSizeValue | sampleSizeUnit | eventDate | location | decimalLatitude | decimalLongitude | … |
---|---|---|---|---|---|---|---|---|---|
A1 |
Modified Whittaker Plot |
1000 |
m^2 |
1984-03-18 |
Monarch |
55.72 |
13.28 |
||
A1.1 |
A1 |
100 |
m^2 |
||||||
A1.2 |
A1 |
10 |
m^2 |
||||||
A1.3 |
A1 |
10 |
m^2 |
||||||
A1.4 |
A1 |
1 |
m^2 |
||||||
A1.5 |
A1 |
1 |
m^2 |
||||||
A1.6 |
A1 |
1 |
m^2 |
||||||
A1.7 |
A1 |
1 |
m^2 |
||||||
A1.8 |
A1 |
1 |
m^2 |
||||||
A1.9 |
A1 |
1 |
m^2 |
||||||
A1.10 |
A1 |
1 |
m^2 |
||||||
A1.11 |
A1 |
1 |
m^2 |
||||||
A1.12 |
A1 |
1 |
m^2 |
||||||
A1.13 |
A1 |
1 |
m^2 |
其他可包含或曾經包含的資訊
事件核心元素主要來自達爾文核心標準(DwC)的 Event、Location 和 Geological Context 類別(參見表 3)。物種出現紀錄延伸資料集的元素則來自 Occurrence、Taxon 和 Identification 類別。為了一致性,物種出現紀錄延伸資料集包含了所有來自物種出現紀錄核心的術語。因此,Event、Location 和 Geological Context 的術語也被列入物種出現紀錄延伸資料集,但實際上是冗餘的。注意,IPT 為方便使用者,默認會隱藏這些冗餘術語。
Event Core |
eventID, parentEventID, samplingProtocol, sampleSizeValue, sampleSizeUnit, samplingTaxaRange, siteTreatment, siteID, layer |
---|---|
Occurrence Extension |
eventID, organismQuantity, organismQuantityType, siteID+, layer+ |
「+」符號表示被建議且尚未正式通過的新術語。