發布調查活動資料的最佳實務 - 計劃新增項目與修訂說明

版本 2.0

額外資訊:可包含或曾經包含於 發布調查活動資料的最佳實務導引 中。

什麼是調查活動(sampling-event)資料?

如何以 DwC-A 表現調查活動資料?

調查活動的詮釋資料

調查活動資料

TODO: 提供建議以解決達爾文核心標準星型結構(DwC-A star schema)的限制,例如無法在同一資料集中將測量和事實同時關聯到事件和物種出現的情況。目前的解決方法是建議發布者發布多個資料集。注意,OBIS 正在設計一種擴展的測量與事實延伸資料集的原型,可能有助於克服此限制。對此原型延伸資料集的討論正在 GitHub 上進行。然而,有意見指出,該原型延伸資料集未明確說明測量與事實是和事件還是物種出現相關。一種替代方案是新增 resourceID(或是 resourceType),而不是在測量或事實延伸資料集中新增 eventID 和 occurrenceID 作為屬性,正如 OBIS 延伸資料集的實踐方法。

資料文件格式建議

樣本數

TODO: 提供建議如何透過選擇適當的 WKT 形狀或簡單的緯度/經度點位置來表示調查區域。如果正確執行,也可以導出調查進行的方向。例如,使用 WKT 形狀 LINESTRING 表示的海洋拖網線,可以根據起點和終點的標準標記法確定拖網方向。

數量與豐度

如何唯一識別調查活動

TODO: 更好地指導使用者如何使用持久且全球唯一的識別碼填寫 dwc:eventID 和 dwc:parentEventID:

  • dwc:eventID 應為永久且全球唯一的識別碼。記得重複使用現有的穩定識別碼。當已有識別碼時,不要為該事件創建新的識別碼。

  • 在缺乏 GUID 的情況下,作為最後手段,重複使用原始 fieldNumber。

如何掌握調查活動的層次結構

TODO: 更好地指導使用者如何使用正確的 dwc:parentEventID 發布事件層級結構(遞歸資料類型)。

如何找出缺失資料

TODO: 從 FAQ 中轉移相關資訊,指導使用者如何在達爾文核心標準中使用正確的 dwc:occurrenceStatus 發布存在/不存在資料。

如何添加補充多媒體資料

TODO: 提供建議如何包括補充媒體以使資料更易於解讀。例如,在解釋資料時,包含植被資料的原始掃描樣區紀錄表的連結是非常有幫助的。

發布調查活動資料

使用 GUID 作為識別碼

TODO: 建議發布者使用 GUID,並提供如何為適用欄位如 dwc:occurrenceID、dwc:eventID、dwc:organismID 和 dwc:locationID 創建 GUID 的指導。例如,可以使用 http://www.geonames.org/ 查找(甚至生成新的)dwc:locationID 的識別碼,例如 http://sws.geonames.org/10793757/ 是格陵蘭的一個湖泊的 GUID。

填寫必填與建議的術語

TODO: 指導使用者如何模糊化敏感物種的位置,例如: - 直接從資料集中移除這些物種; - 僅以屬級發表物種鑑定; - 將敏感/受保護的物種發布為單獨的資料集; - 在主要資料集中發布模糊化的敏感資料點,並在一個存取受限的獨立資料集中發布未模糊化的詳細資訊,兩個資料集都應包括完整的資料紀錄。

保留原始資料

TODO: 指導使用者如何輸入原始資料的說明。例如,應將原始事件的 ID 或代碼輸入至 dwc:fieldNumber;原始的物種出現觀測紀錄的 ID 或代碼應輸入至 dwc:recordNumber。

將專案資料作為單一資料集發布

TODO: 提供建議如何發布由大型專案產生的資料。目前的建議是發布單一資料集,因為將其分為多個資料集會增加重複填寫詮釋資料的工作量。堅持發布多個資料集的發布者應使用 Project.ID 在 EML 中連結它們。

將出現紀錄資料重新發布為調查活動資料

TODO: 為將現有的物種出現紀錄資料集遷移為調查活動格式提供理由與指導。需要回答以下問題: - 調查活動版本是否應替代現有的物種出現紀錄版本,還是應同時保留兩個版本? - 如果替代,新的調查活動版本是否應分配一個全新的 DOI? - 生成調查活動的版本有哪些好處?

對活體個體的持續監測建模

TODO: 提供建議如何為持續監測活體個體(例如鳥類追蹤資料)建模,例如使用 dwc:organismID 儲存被追蹤個體的 ID,並使用單一事件表示每個被追蹤個體(與之相關聯的物種出現紀錄則記錄在其被觀測到的地方)。

管理資料集相關的問題

TODO: 提供建議如何使用 GitHub 的問題管理系統處理與資料集相關的問題,正如 INBO 的做法。

分享生成或清理資料集所用的腳本與程式

TODO: 提供建議如何將自訂腳本與程式(例如用於轉換交叉表格資料)公開於 GitHub 上,以造福其他發布者,正如 INBO 的做法。建議應鼓勵使用者納入一組詳細的操作說明,以提高腳本的可用性。

在資料集詮釋資料中描述調查活動資料

TODO: 建議發布者在嘗試將調查活動標準化為達爾文核心標準之前,儘可能記錄有關調查活動的資訊,特別是調查方法。

連結相關資料集

TODO: 建議發布者如何連結同一研究背景下的相關資料集,使其易於使用者檢索。發布者可能需要發布多個資料集來解決達爾文核心標準星型結構的限制。發布者也可以選擇發布從相同調查活動中衍生的單獨物種出現紀錄資料集。目前的建議是使用 Project.ID 將它們連結起來。

列出相關研究

TODO: 提供建議如何透過納入相關已發布的作品(如期刊文章、項目筆記、論文等)的連結,使資料集更易於解讀。

範例

淡水無脊椎動物調查

鹹淡水無脊椎動物調查

大型水生植物調查

TODO: 更新基於荷蘭植被資料庫(Dutch Vegetation Database, LVD)版本的範例,該版本重新發布為調查活動資料集。樣區紀錄延伸資料集在初步指南發布後經歷了重大變更。有關 LVD 和植被調查活動資料模型的更多資訊,請參見:https://gbif.blogspot.com/2016/07/probably-turbovegs-best-kept-secret.html。