生物信息学中的可重复性研究

news/2024/11/15 4:48:06/

科学就其本质而言,是累积渐进的。无论你是使用基于网络的还是基于命令行的工具,在进行研究时都应保证该研究可被其他研究人员重复。这有利于你的工作的累积与进展。在生物信息学领域,这意味着如下内容。

  • 工作流应该有据可查。这可能包括在电脑中保留文本文档以便复制和粘贴复杂命令、网址或其他形式的数据。许多人选择保留传统的手写的实验笔记本,但是现在越来越需要同时保存某些形式的电子记录。

  • 为了方便你的工作,存储在计算机上的信息应被妥善整理。可参考文献:Noble, W.S. 2009. A quick guide to organizing computational biology projects. PLos Computational Biology

  • 数据应该可被他人使用,特别是存储高通量数据的存储库。 这方面的鸽子包括NCBI的Gene Expression Omnibus (GEO)和Sequence Read Archive (SRA)、ArrayExpress 和 EBI 的European Nucleotide Archive (ENA)。

    如果期刊没有特别要求,现在可以将数据上传到 GSA (Genome Sequence Archive)。如果是敏感的遗传资源数据,可能只能上传到GSA。

  • 元数据和数据一样同等重要。元数据是指数据集相关的信息。对于一个已被测序的细菌基因组而言,元数据可能包括该细菌被分离的位置信息、培养条件,以及它是否致病等信息。在一个关于人类大脑的基因表达的研究中,元数据可能包括死后采样时间 、性别、疾病表型和RNA分离方法等。元数据为统计分析提供关键信息,使研究者可以探索各种参数对结果的影响。

  • 所使用的数据库应做好记录。由于数据库的内容可随时间改变所以记录版本号和获取日期非常重要。

  • 软件应做好记录。对于已被认可的软件包,应提供版本号。进一步记录使用软件的具体步骤,可使他人能够独立重复你所做的分析。为了共享软件,许多研究人员使用如GitHub等软件存储库。

    我一般使用 Git 来管理项目的源代码以及相关文档。可以参考我之前写的一篇 Git 最佳实践的文章。生物信息基础:实用Git命令,掌握这些就够了

c818bf2d8fe59a30a4134eb77113e5bb.png

Galaxy 生信云平台(UseGalaxy.CN)的重要特色就是可重复性研究,它解决了如下问题:

  • 工作流有据可查。分析过程所有步骤都有记录,可重复。

  • Galaxy有非常科学的管理数据生命周期的流程。数据从上传,到分析以及存档,都尽最大可能为用户提供优质的使用体验。

  • 数据分析所使用的软件和数据库版本,以及相关参数,都记录在案,便于重复研究。

  • 数据分析的相关步骤、参数以及数据等,都可以与他人分享。可以设置指定人员可见,或者通过分享链接可见以及所有人可见。

参考资料:《生物信息学与功能基因组学》P11

关于简说基因

  • 生信平台

    Galaxy中国(UseGalaxy.cn)致力于打造中国人的云上生物信息基础设施。大量在线工具免费使用。无需安装,用完即走。活跃的用户社区,随时交流使用心得。

  • 生信培训

    简说基因的生信培训班,荣获学员的一致好评。如果你也对生物信息学感兴趣,欢迎来跟简说基因,学真生信

  • 生信分析

    我们能够承接所有 NGS 组学数据分析业务,包括但不限于 WGS / WES / RNA-seq 等。基因组组装、注释,以及各种重测序业务都可以与简说基因合作。

55df01ab8542741ce5991421d120801c.png


http://www.ppmy.cn/news/1302403.html

相关文章

114.QTimer类和QWidget类

目录 一、QTimer类 定时器使用举例: 二、QWidget类 2.1设置父对象 2.2窗口位置 2.3窗口尺寸 2.4窗口标题和图标 2.5信号 2.6槽函数 示例代码: 一、QTimer类 QTimer 是 Qt 中用于实现定时器的类。它可以在一定的时间间隔内发射信号,…

线程安全--互斥锁

文章目录 一.线程安全问题读取无效(脏)数据丢失更新线程安全的保证--操作的原子性 二.互斥锁及其实现原理互斥锁的实现原理pthread线程库提供的锁操作 三.死锁问题 一.线程安全问题 当多个线程并发地对同一个共享资源进行修改操作时,可能会引发数据读写错误(比如读取无效(脏)数…

第8章-第6节-Java中字符流的缓冲流

1、在说正题之前,先说一个小细节,不管是字节流还是字符流都要注意这个细节,具体看这篇博文:关于Java的IO流里面的方法read()的小细节 2、字符流的缓冲流: 1)、BufferedWriter 方法名说明void newLine()写…

一文教你如何在ThinkPHP6中轻松搞定审核流程管理!

随着互联网的发展,越来越多的企业开始使用网络进行业务处理,这就要求企业必须有一套完善的审核流程管理系统来确保业务的安全和规范。在PHP开发中,ThinkPHP6框架提供了便捷的审核流程管理功能,本文将介绍如何在ThinkPHP6中实现审核…

二叉树遍历C++

假设二叉树上各结点的权值互不相同且都为正整数。 给定二叉树的后序遍历和中序遍历,请你输出二叉树的前序遍历的最后一个数字。 输入格式 第一行包含整数 N,表示二叉树结点总数。 第二行给出二叉树的后序遍历序列。 第三行给出二叉树的中序遍历序列。 …

150套简约流行国内外优秀网页模板打包 /个人主页网站html模板 /html+css网页设计源码(分享)

这里把自己收藏的最新150套简约流行国内外优秀网页模板打包分享给大家,如果有用请点赞收藏,无密源码,直接拿来就可以用的。它是htmlcss网页设计源码,html5网页静态模板。 我分了品类,按行业或应用场景,不但…

在vue3和上挂载方法,以及在页面中怎么使用原型(公共)上的方法

//新建的项目的main.js文件是这样的 //main.js 文件 //befor import { createApp } from vue; import App from ./App.vue;const app createApp(App); app.mount(#app);以下例子用于解释在vue3.0的main.js中挂载公共的方法(foo) //main.js 文件 //afte…

PingCAP 受邀参加 FICC 2023,获 Open100 世纪全球开源贡献奖

2023 年 12 月,2023 国际测试委员会智能计算与芯片联邦大会(FICC 2023)在海南三亚举办,中外院士和数十位领域专家莅临出席。 大会现场 ,开放源代码促进会创始人 Bruce Perens 颁发了 Open100 世纪全球开源贡献奖&…