FAIR 数据共享指导原则详解

Author Tanmer Baklib
Baklib · 2025-05-20发布 · 7 次浏览

科学数据共享的首要前提是数据能够被用户及时发现,所以可发现原则是数据FAIR化的基础。

2016年,一套可查找、可访问、可互操作和可重用(FAIR)原则被提出,作为正确数据管理和监管的先决条件,旨在实现学术数据的可重用性。这些原则也旨在应用于其他数字资产,并且随着时间的推移,FAIR指导原则已被重新诠释或扩展,涵盖了生成数据的软件、工具、算法和工作流程。FAIR原则如今正应用于人工智能模型和数据集。

FAIR 论文引用:https://www.nature.com/articles/sdata201618

FAIR 共享数据集:https://fairsharing.org/

清华大学关于 FAIR 的引用:https://lib.tsinghua.edu.cn/info/1375/5865.htm

FAIR 介绍

FAIR原则的起源

2014年1月,一些代表学术界、工业界、资助机构和学术出版商的多元化利益相关者齐聚荷兰莱顿,举办了一场以“Jointly Designing a Data FAIRport”为主题的研讨会。与会专家共同研讨起草了一份指导科学数据管理的倡议性文件,倡导科研活动产出的数据在开放共享过程中应该努力实现可发现(Findable)、可访问(Accessible)、可互操作(Interoperable)和可重用(Reusable),4个目标层层递进,简称为“FAIR原则”。

2016年,FORCE11(一个由学者、图书馆员、档案管理员、出版商和研究资助者组成的社区,旨在有效利用信息技术来改变现代学术交流)对FAIR原则进一步优化,并将4个抽象目标细化为15条具体原则正式发布。

FAIR——可查找、可访问、可互操作、可重复使用

可查找:

  • F1. (元)数据被分配一个全局唯一且持久的标识符

  • F2. 数据用丰富的元数据描述(由下面的R1定义)

  • F3. 元数据清晰明确地包含其描述的数据的标识符

  • F4. (元)数据在可搜索资源中注册或索引

可访问性:

  • A1. (元)数据可以通过其标识符使用标准化通信协议进行检索

    • A1.1 该协议是开放的、免费的、可普遍实施的

    • A1.2 协议允许在必要时进行身份验证和授权程序

  • A2. 即使数据不再可用,元数据仍可访问

可互操作:

  • I1. (元)数据使用正式的、可访问的、共享的、广泛适用的语言来表示知识。

  • I2. (元)数据使用遵循 FAIR 原则的词汇

  • I3. (元)数据包含对其他(元)数据的合格引用

可重复使用:

  • R1. 元数据描述丰富,包含多个准确且相关的属性

    • R1.1. (元)数据以清晰易懂的数据使用许可证发布

    • R1.2. (元)数据与详细的出处相关

    • R1.3. (元)数据符合领域相关的社区标准

从FAIR原则的具体内容来主要强调两点:

(1)元数据标准:标识符、元数据内容、元数据标准等;

(2)用户授权:用户注册与授权、许可声明、使用条款等。

FAIR 强调机器在数据丰富的研究环境中的重要性

FAIR 指导原则强调公平性,并将其应用于人类驱动和机器驱动的活动,这是 FAIR 指导原则的一个特别关注点,也是其区别于许多同行倡议(将在后续章节中讨论)的一大亮点。人类和机器在尝试查找和处理网络上的数据时,常常面临截然不同的障碍。人类对“语义”(数字对象的含义或意图)有着直观的感知,因为我们能够识别和解读各种各样的语境线索,无论这些线索是网页布局中的结构/视觉/图标提示,还是叙述性注释的内容。因此,我们在选择合适的数据或其他数字对象时不太可能犯错,尽管如果缺乏足够的语境元数据,人类也会面临类似的困难。然而,人类的主要局限性在于,我们无法以当代科学数据的规模和电子科学的复杂性所要求的范围、规模和速度进行操作。正因如此,人类越来越依赖计算代理来代替他们执行发现和集成任务。这要求机器能够在自主探索全球数据生态系统的过程中,应对各种类型、格式和访问机制/协议的数据,并能够自主且恰当地采取行动。此外,机器还必须保存详尽的来源记录,以便其收集的数据能够被准确且充分地引用。因此,协助这些智能体对于数据管理和监管流程的所有参与者(从研究人员、数据生产者到数据存储库托管者)而言,都是至关重要的考量。

👋

Note: 作者在 2016 年提出的关于数据的“机器可读性(可操作性)”,刚好应征了如今 LLM 大语言模型的强大突破。也证明作者对制定 FAIR 原则的前瞻性。

FAIR 一些实施举措

以下非详尽的 FAIR 举措清单:(引用自2022年6月7日在阿贡国家实验室举行的人工智能FAIR研讨会: https://www.nature.com/articles/s41597-023-02298-6

FAIR4HEP:面向高能物理领域受物理启发的人工智能的可查找、可访问、可互操作和可重用框架( https://fair4hep.github.io )。该项目由美国能源部 (DOE) 资助。在这个项目中,一个由物理学家、计算机科学家和人工智能科学家组成的跨学科团队以高能物理为科学驱动力,开发了一个 FAIR 框架,旨在增进我们对人工智能的理解,为应用人工智能技术提供新的见解,并提供一个探索人工智能新方法的环境。

ENDURABLE:具有可查询元数据的基准数据集和人工智能模型( https://sites.google.com/lbl.gov/endurable/home )。由美国能源部资助。该项目旨在为科学界和机器学习 (ML) 社区提供强大、可扩展且易于扩展的工具,以共享和严格聚合各种科学数据集,从而训练最先进的 ML 模型。

共同基金数据生态系统( https://commonfund.nih.gov/dataecosystem )。由美国国立卫生研究院 (NIH) 资助。这是一个在线发现平台( https://app.nih-cfde.org ),使研究人员能够创建和搜索 FAIR 数据集,从而从单一访问点提出科学和临床问题。

BioDataCatalyst ( https://biodatacatalyst.nhlbi.nih.gov )。由美国国立卫生研究院 (NIH) 资助。构建并增强符合 FAIR 数据原则的心脏、肺和血液数据集的注释元数据。

模型花园:一个用于发布和应用人工智能模型进行科学、工程、教育和工业领域转化研究的公平人工智能框架( https://thegardens.ai )。该项目由美国国家科学基金会 (NSF) 资助。该项目将降低人工智能方法的使用门槛,并促进围绕特定 FAIR 数据集、方法和人工智能模型的社群发展。模型花园将提供一个模型存储库,通过诸如科学数据和学习中心10、funcX 11和Globus 12等工具,将模型链接到论文、测试指标、已知模型局限性和代码,以及计算和数据存储资源。

Braid:面向可扩展和 FAIR 科学的数据流自动化( https://anl-braid.github.io/braid/ )。由美国能源部资助。该项目旨在使研究人员能够定义一系列流程,这些流程可以单独或共同实现应用功能,同时满足快速响应、高重建保真度、数据增强、数据保存、模型训练等需求。

HPC-FAIR:用于分析和优化科学应用的数据和人工智能模型管理框架( https://hpc-fair.github.io/ )。由美国能源部资助。该多机构项目旨在开发一个通用的高性能计算数据管理框架13 , 14,使科学应用的训练数据和人工智能模型都能够公平地运行。

FAIR替代基准计划( https://sbi-fair.github.io )。由美国能源部资助。该研究开发人工智能替代品,并研究其关键特性和软件环境,以支持其在基于模拟的研究中的应用。他们与 MLCommons (https://mlcommons.org/en/) 合作, MLCommons是一个由 62 家公司组成的联盟,这些公司托管 MLPerf 基准,其中包括用于科学领域的基准,并在计算科学领域镜像其流程。这涉及丰富的元数据,包括模型、数据集及其使用日志,记录了机器和功率特性,需要使用 FAIR 方法开发多个本体。

材料数据设施 (MDF) ( https://www.materialsdatafacility.org )。MDF 19、20由美国国家标准与技术研究院 (NIST) 和分级材料设计中心资助,旨在遵循和建立在 FAIR 原则的基础上,使材料数据易于发布、发现和重用。迄今为止,MDF 已在近 1000 个数据集中收集了超过 80 TB 的材料数据。具体而言,这项工作使得发布包含数百万个文件或 TB 级数据的数据集成为可能,并寻求以提供数据集唯一可查询界面的方式自动对内容进行索引。最近,这些功能已通过Foundry ( https://github.com/MLMI2-CSSI/foundry ) 得到增强,只需几行 Python 代码即可访问描述完善的 ML-ready 数据集。

无国界神经数据 (NWB) ( https://www.nwb.org/ )。由美国国立卫生研究院 (NIH) 脑计划资助。NWB 是一个跨学科项目,旨在创建神经生理学的 FAIR 数据标准,为神经科学家提供共享、存档、使用和构建神经生理学数据通用分析工具的通用标准。NWB 不仅仅是一个数据标准,更是不断发展的神经生理学数据软件生态系统的核心,涵盖细胞内和细胞外电生理学实验数据、光学生理学实验数据以及追踪和刺激数据。NIH 脑计划研究项目及其他项目生成的越来越多的神经生理学数据可在DANDI神经生理学数据档案库中找到。

材料研究数据联盟 (MaRDA) ( https://www.marda-alliance.org )。MaRDA 致力于帮助建立社群,以促进材料科学领域数据的开放、可访问和可互操作。MaRDA 去年举办了两场线上研讨会,参会人数达 300 人,并帮助研究人员组建了独立的工作组。2022 年 8 月,MaRDA 领导层通过 NSF 研究协调网络项目获得资助,以大力拓展围绕这些主题构建可持续社群的力度,在元数据要求方面达成共识,为材料领域的下一代机器学习/人工智能人才提供培训,开发共享的社群基准挑战,举办召集和协调活动等等。

PUNCH4NFDI ( https://www.punch4nfdi.de ) 是德国国家研究数据基础设施联盟,涵盖粒子、天体、天体粒子、强子和核物理等领域,代表来自德国各大学、马克斯·普朗克学会、莱布尼茨联合会和亥姆霍兹联合会的约9000名拥有博士学位的科学家。PUNCH4NFDI 的主要目标是建立一个联合的、公平的科学数据平台,为相关领域及其他领域提供访问和使用数据及计算资源所需的基础设施和接口。

ESCAPE ( https://www.projectescape.eu ) 是欧洲天文学和粒子物理学科学集群 ESFRI 研究基础设施,由欧盟地平线 2020 研究和创新计划资助。ESCAPE 的目标是解决开放科学和长期重复使用数据用于科学和创新的关键问题,欧洲许多最伟大的物理学和天文学科学机构已经联合起来,使其数据和软件可互操作和开放,致力于将欧洲科学云变为现实。ESCAPE 正在提供两个科学项目,以帮助在另一个地平线 2020 资助的项目EOSC-Future ( https://eoscfuture.eu ) 中对欧洲开放科学云 (EOSC) 进行原型设计。这些科学项目将推进科学、FAIR 数据和软件工具,这些工具是暗物质搜索和多信使天文学所必需的,用于研究引力波等极端宇宙现象。

Awesome Materials Informaticshttps://github.com/)是一项跨学科和社区建设工作,旨在汇编材料科学的一整套工具和最佳实践列表,涵盖软件和产品、云模拟平台和标准化计划。

FAIR 的开源和公益实践

Dataverse

Dataverse 是一款开源数据存储库软件,已安装在全球数十家机构中,以支持公共社区存储库或机构研究数据存储库。哈佛 Dataverse 拥有超过 60,000 个数据集,是当前最大的 Dataverse 存储库,并向所有研究领域的所有研究人员开放。Dataverse 遵循 Altman 和 King 13定义的标准,为每份存款生成正式引用。Dataverse 在发布数据集时将数字对象标识符 (DOI) 或其他持久标识符 (Handles) 公开(“F”)。这将解析为登录页面,提供对元数据、数据文件、数据集条款、豁免或许可证以及版本信息的访问,所有这些都已编入索引并可搜索(“F”、“A”和“R”)。存款包括元数据、数据文件以及理解数据和分析所需的任何补充文件(如文档或代码)(“R”)。元数据始终公开,即使数据因隐私问题受到限制或删除(“F”,“A”)。这些元数据提供三个级别,广泛支持“I”和“R”FAIR 原则:1)数据引用元数据,映射到 DataCite 模式或都柏林核心术语;2)领域特定元数据,尽可能映射到科学领域使用的元数据标准;3)文件级元数据,对于表格数据文件(包括列级元数据)来说,它可以深入而广泛。最后,Dataverse 提供公共的机器可访问接口,用于搜索数据、访问元数据和下载数据文件,并在数据文件受限时使用令牌授予访问权限(“A”)。

FAIRDOM

( http://fair-dom.org/about ):整合了 SEEK 14和 openBIS 15平台,为系统生物学打造 FAIR 数据和模型管理工具。单个研究资产(或数据和模型的集合)通过唯一且持久的 HTTP URL 进行标识,这些 URL 可通过 DOI 注册发布(“F”)。资产可通过 Web 以各种适合个人及其计算机的格式(RDF、XML)进行访问(“I”)。研究资产使用社区标准、格式和本体,并标注丰富的元数据(“I”)。元数据以 RDF 格式存储,以实现互操作性,且资产可供下载重复使用(“R”)。

ISA

是一个社区驱动的元数据跟踪框架,旨在促进符合标准的生命科学数据集的收集、管理、管理和重用。ISA 为《自然科学数据》的数据描述符文章和许多 GigaScience 数据论文逐步提供 FAIR 结构化元数据,并支持 EBI MetaboLights 数据库和其他数据资源。其核心是一个通用的、可扩展的 ISA 模型,最初仅以表格形式提供,但后来增强为基于 RDF 的表示形式17,以及 JSON 序列化以启用“I”和“R”,在作为链接数据发布时变为“FAIR”(http://elixir-uk.org/node-events/201cisa-as-a-fair-research-object201d-hack-the-spec-event-1)并补充其他研究对象18。

Open PHACTS

Open PHACTS 是一个用于药物研发相关信息的数据集成平台。平台访问通过机器可访问的接口20进行,该接口提供多种人机可读(HTML)和机器可读(RDF、JSON、XML、CSV 等)的表示形式,从而提供公平性的“A”方面。该接口允许使用多个 URL 通过映射服务(“F”和“A”)访问特定实体的信息。因此,用户可以提供 ChEMBL URL 来检索来自 Chemspider 或 DrugBank 等平台的信息。每次调用都会在其响应中提供一个规范的 URL(“A”和“I”)。所有使用的数据源均使用标准化数据集描述,遵循全球 VoID 标准,并具有丰富的来源(“R”和“I”)。所有接口功能均使用 RDF 描述,遵循关联数据 API 规范(“A”)。最后,大多数数据集使用社区认可的本体(“I”)进行描述。

wwPDB

wwPDB 是一个专用且经过严格管理的数据档案库,用于存储通过实验测定的蛋白质和核酸的三维结构信息。所有 wwPDB 条目均稳定地托管在一个 FTP 服务器(“A”)上,并以机器可读的格式(文本和 XML)呈现;机器可以使用 wwPDB 提供的元数据来执行这些格式。该元数据符合大分子信息框架 (mmCIF 22 ),这是国际晶体学联合会 (IUCr) 的数据标准(“F”、“I” 代表人类,“F”、“I” 代表支持 IUCr 的机器)。 wwPDB 元数据包含对常见标识符(例如 PubMed 和 NCBI Taxonomy)的交叉引用,其 wwPDB 元数据在数据字典和模式文档(http://mmcif.wwpdb.org和http://pdbml.wwpdb.org)中描述,这些文档符合 IUCr 化学和结构生物学领域(“R”)的数据标准。各种软件工具可用于解释 wwPDB 数据和元数据(“I”、“R”代表人类,“I”、“R”代表使用此软件的机器)。每个条目都由一个 DOI 表示(“F”、“A”代表人类和机器)。DOI 解析为压缩文件,需要特殊软件才能进一步查询/解释。其他 wwPDB 访问点23 – 25通过可能长期稳定的 URL 提供对 wwPDB 记录的访问(“F”),并且所有数据和元数据都可以通过一个或多个 wwPDB 附属网站进行搜索(“F”)

UniProt

UniProt 是一个全面的蛋白质序列和注释数据资源库。所有条目均由一个稳定的 URL 唯一标识,该 URL 提供多种格式的访问记录,包括网页、纯文本和 RDF(“F”和“A”)。记录包含丰富的元数据(“F”),既可人读(HTML),又可机器读(文本和 RDF),其中 RDF 格式的响应利用共享词汇表和本体,例如 UniProt Core、FALDO 和 ECO(“I”)。UniProt 与 150 多个不同的数据库互连,每条记录都包含大量链接,例如 PubMed,从而实现丰富的引用。这些链接在 RDF 表示(“R”)中可由机器执行。最后,在 RDF 表示中,UniProt 核心本体明确地对所有记录进行类型化,无论对于人类还是机器来说,都不会对数据所代表的内容(“R”)产生任何歧义,从而实现记录的全自动检索和交叉引用信息。

FAIR 的社区实践

以 FAIR 为核心重点或活动的新兴社区/合作倡议

bioCADDIE

( https://biocaddie.org ):NIH BD2K 生物医学和医疗保健数据发现索引生态系统 (bioCADDIE) 联盟致力于开发数据发现索引 (DDI) 原型,该原型对数据的变革性和影响力将如同 PubMed 对生物医学文献的变革性和影响力。DDI 专注于查找(“F”)和访问(“A”)存储在不同来源的数据集,并逐步识别相关元数据(“I”)并将其映射到社区标准(“R”),从而链接到 BioSharing。

CEDAR

扩展数据注释和检索中心 (CEDAR) 是由美国国立卫生研究院 (NIH) BD2K 资助的卓越中心,旨在开发工具和技术,以减轻编写和增强符合社区标准的元数据的负担。CEDAR 将支持创建元数据模板,这些模板将实施 BioSharing ( https://biosharing.org ) 的实验元数据的社区标准,这些模板将通过 HTTP URI 进行唯一标识和检索,并使用来自 BioPortal ( http://bioportal.bioontology.org ) 的词汇表和本体进行注释(“F”、“A”、“I”、“R”)。这些模板将指导用户创建具有唯一且稳定的 HTTP 标识符(“F”)的丰富元数据,这些元数据可以使用 HTTP(“A”)进行检索,并以多种格式(JSON-LD、TURTLE、RDF/XML、CSV 等)(“I”)。这些元数据将使用模板定义的社区标准,并包括出处和数据使用情况(“R”)。

以及

  • GOFAIRUShttps://www.gofair.us)。FAIR 论文有效地将出版物、AI 模型和基准联系起来,以生成量化 AI 模型性能和数据集健全性的品质因数。

  • MLCommonshttps://mlcommons.org/en/)一个联盟,将行业和学术合作伙伴聚集在竞争前的空间中,以比较使用不同硬件架构和软件/硬件组合的特定任务和数据集的性能。

  • Gardenhttps://thegardens.ai)。一个用于发布、发现和重新发布 FAIR AI 模型的平台,该模型与物理、化学和材料科学领域的 FAIR 和 AI 就绪数据集相链接。

  • Bridge2AIhttps://commonfund.nih.gov/bridge2ai)。FAIR 原则可以实现数据集中的伦理调查,从而方便实践社区​​使用。

FAIR 的工业实践

FAIR原则是解决“数据孤岛”问题的优秀解决方案,从而在工业界催生出“数据中台”概念厂商无数,旨在解决企业数据管理、治理、共享、协同等问题,让数据可见、可用、可度量。 论文《我国国家科学数据中心FAIR原则的实践现状调查与分析》对 FAIR 应用现状做了一定的调查统计。以及一些相关的工业应用实践论文:

Baklib

https://www.baklib.cn/

Baklib是一款工业级数字内容和知识管理应用软件,是部分遵从 FAIR 原则应用到工业实践中比较成熟的软件之一。其中创造性的资源库+知识库+应用库架构,实现了一下几个逻辑:

资源库:支持 10 种类型的元数据管理(文本片段,网址链接,图片,视频,音频,PDF,PPT,Word,Excel,压缩文件,以及其他格式),并且通过 AI 自动实现文本、描述、标签的补充。解决 FAIR 中“F”和“R”可查找性和可复用性。

知识库:通过多层级结构管理知识信息,并且具备强大的复用、引用、版本管理能力,解决 FAIR 中“A”和“I” 可访问性和互操作性。

提交反馈

博客 博客

专注数字内容治理,助力数字体验升级

FAIR 数据共享指导原则详解

FAIR 数据共享指导原则详解

科学数据共享的首要前提是数据能够被用户及时发现,所以可发现原则是数据FAIR化的基础。

Author fair
By Baklib
发布:2025-05-20
最全TOP 50 大模型 AI 知识库软件厂商排名汇总

最全TOP 50 大模型 AI 知识库软件厂商排名汇总

编者按:千行百业都在上大模型上 AI;同时我们也发现大模型+知识库是企业落地 AI 的最佳路径。所以我们通过汇总收集大模型+知识库的软件厂商,方便用户一窥究竟。内容持续更新中,排名不分先后~

Author top50
By Baklib
发布:2025-05-08
像图书管理员一样实施人工智能的4个技巧

像图书管理员一样实施人工智能的4个技巧

借鉴图书管理员的智慧,企业在引入人工智能时同样需要结构化思维、风险治理和人类监督。Baklib 作为AI驱动的一体化内容管理平台,帮助企业高效组织知识、优化元数据结构,并实现内容多场景应用与体验,智能搜索与推荐。

Author 4-tips-for-implementing-ai-like-a-librarian
By Lisa
发布:2025-05-07
什么是内容图谱?让知识和内容真正联动起来

什么是内容图谱?让知识和内容真正联动起来

本文深入解析了“内容图谱”的概念,强调其作为附带语义关系和结构化内容的知识图谱形式,如何提升信息检索、内容管理和个性化推荐体验。通过具体示例,如搜索“光学”时展示的知识卡,文章展示了内容图谱如何整合概念、内容、作者、元数据等信息节点,...

Author 0c78
By Lisa
发布:2025-05-06
战略型首席数据官(CDO):数据领导力的四大成功要素

战略型首席数据官(CDO):数据领导力的四大成功要素

Baklib 是专为AI Data Ready 新一代数字内容体验云,助力战略型CDO推动数据文化建设、加强跨部门协作、完善数据治理体系。通过统一的信息架构和灵活的内容分发机制,Baklib 打破数据孤岛,让企业更高效地释放数据价值,...

Author the-strategic-cdo-four-success-factors-for-data-leadership
By Lisa
发布:2025-04-18
信息掌控的五个阶段

信息掌控的五个阶段

信息已成为企业关键资产,管理成熟度却普遍不足。本文结合“五个信息成熟阶段”模型,探讨如何借助 Baklib 数字内容体验云平台统一知识入口、提升协同效率,助力企业实现信息治理跃升。

Author the-5-stages-of-mastering-your-information
By Lisa
发布:2025-04-18
超越标签:打造符合业务目标的分类体系

超越标签:打造符合业务目标的分类体系

分类体系的成功在于其业务价值,而非技术定义。本文探讨如何通过灵活的术语调整,使分类体系更易被企业接受,并推动全渠道优化。同时,Baklib 助力企业构建智能化知识体系,提升用户体验,实现数字化转型。

Author fe85
By Lisa
发布:2025-03-31
高效项目管理:7 大实用技巧与工具推荐

高效项目管理:7 大实用技巧与工具推荐

本文介绍了七个优化项目管理的关键技巧,包括明确项目范围、制定计划、有效沟通、监控进展、组建团队、合理规划和使用合适工具。文中推荐了 Baklib、Asana、Slack 等工具,帮助提升管理效率,增强团队协作,确保项目顺利推进并按时交付。

Author abf5
By Lisa
发布:2025-03-31