常见问题
准备参考基因组
用户可从NCBI, UCSC, Ensemble等渠道获取参考基因组, 以下演示如何从UCSC获取人类参考基因组 hg19 。
打开 UCSC ;
点击”Human”进入人类参考基因组下载页面;
点击”Sequence data by chromosome”;
选择 chr1.fa.gz – chr22. fa.gz, chrX.fa.gz, chrY.fa.gz, chrM.fa.gz 进行下载。
或者, 您可以用如下命令完成上述操作:
for i in {{1..22},{X,Y,M}}
do
wget -c http://hgdownload.soe.ucsc.edu/goldenPath/hg19/chromosomes/chr$i.fa.gz
done
然后,您可以用如下命令将多个染色体的FASTA文件合并成单个FASTA文件(以人类hg19参考基因组为例):
for i in {{1..22},{X,Y,M}}
do
zcat chr$i.fa.gz >> /index/hg19/hg19.fasta
done
常见的使用问题
以下是常见使用问题列表及其解决方案。
gtx报错退出:无法打开文件,打开文件太多
这个错误的根本原因是您的系统对允许并发打开的文件数目设置不够高。
你可以通过设置系统 ulimit -n
来解决这个错误。在Linux系统中:1. 通过以下命令检查系统最大允许打开的文件数目:
ulimit -n
以root用户的身份编辑
/etc/security/limits.conf
来设置更高的限制,并将下面两行添加到配置中:
* soft nofile 50000
* hard nofile 50000
如果您使用Ubuntu系统,您还需将这行添加到您的shell配置文件
~/.bashrc
中:
ulimit -n 50000
您需要退出重新登录系统以使修改生效。登录后可用以下命令检查修改是否正确:
ulimit -n
命令行应该打印50000。如果您运行 gtx
的任一子命令,屏幕将打印类似信息:
[gtx] [info] Current sys info: /ssd-cache/ available: 862GB, memory available: 120GB, ulimit of open files: 50000.
gtx运行失败:/ssd-cache
空间不足
gtx
运行分析过程将产生大量的中间文件,运行gtx前,您应经常检查 /ssd-cache
的可用空间。当可用空间小于500GB时,请及时清理无用数据。您可使用系统命令 df
来完成此操作:
检查
/ssd-cache
可用空间
df -h /ssd-cache
确保没有
gtx
进程运行
ps -ef c| grep gtx
如果命令无任何输出打印,表明没有gtx进程运行
清理
/ssd-cache
中的数据,如果您确认/ssd-cache
没有有用数据,保持目录干净:
rm -r /ssd-cache/*