IL-AD
我们利用机器学习方法来适应纳米孔测序基对齐器,用于核苷酸修饰检测。我们首先应用增量学习技术来改进富含修饰的序列的基对齐,这些序列通常具有高度的生物学兴趣。在解析序列主干后,我们进一步对单个核苷酸进行异常检测,以确定其修饰状态。通过这种方式,我们的管道承诺实现单分子、单核苷酸和序列上下文无关的修饰检测。
依赖项
samtools: https://github.com/samtools/samtools
taiyaki: https://github.com/nanoporetech/taiyaki/tree/master/taiyaki
使用方法
增量学习
训练过程
python ./scripts/train.py model_template.py pretained_model.checkpoint input.hdf5 --device cuda:0 --outdir path/to/output \
--save_every epochs --niteration niterations --lr_max lr_max --lambda lambda --min_sub_batch_size batchsize
model_template.py
: 模型架构,例如 taiyaki templates
pretained_model.checkpoint
: 要进行增量学习的模型,例如 taiyaki pretrained models
input.hdf5
: 由 taiyki workflow 生成的训练数据集
--device
: 我们建议使用GPU进行增量学习训练
--output
: 输出字典的路径
--save_every epochs
: 每 epochs
次迭代保存一次检查点
--niterations niterations
: 增量学习中的迭代次数
--lr_max lr_max
: AdamW优化器中的默认学习率
--lambda lambda
: 我们使用超参数 λ \lambda λ 平衡 L C T C L_{CTC} LCTC 和 L