常见问题

准备参考基因组

用户可从NCBI, UCSC, Ensemble等渠道获取参考基因组, 以下演示如何从UCSC获取人类参考基因组 hg19

  1. 打开 UCSC

  2. 点击”Human”进入人类参考基因组下载页面;

  3. 点击”Sequence data by chromosome”;

  4. 选择 chr1.fa.gz – chr22. fa.gz, chrX.fa.gz, chrY.fa.gz, chrM.fa.gz 进行下载。

或者, 您可以用如下命令完成上述操作:

for i in {{1..22},{X,Y,M}}
do
   wget -c http://hgdownload.soe.ucsc.edu/goldenPath/hg19/chromosomes/chr$i.fa.gz
done

然后,您可以用如下命令将多个染色体的FASTA文件合并成单个FASTA文件(以人类hg19参考基因组为例):

for i in {{1..22},{X,Y,M}}
do
   zcat chr$i.fa.gz >> /index/hg19/hg19.fasta
done

常见的使用问题

以下是常见使用问题列表及其解决方案。

gtx报错退出:无法打开文件,打开文件太多

这个错误的根本原因是您的系统对允许并发打开的文件数目设置不够高。

你可以通过设置系统 ulimit -n 来解决这个错误。在Linux系统中:1. 通过以下命令检查系统最大允许打开的文件数目:

ulimit -n
  1. 以root用户的身份编辑 /etc/security/limits.conf 来设置更高的限制,并将下面两行添加到配置中:

* soft nofile 50000
* hard nofile 50000
  1. 如果您使用Ubuntu系统,您还需将这行添加到您的shell配置文件 ~/.bashrc 中:

ulimit -n 50000
  1. 您需要退出重新登录系统以使修改生效。登录后可用以下命令检查修改是否正确:

ulimit -n

命令行应该打印50000。如果您运行 gtx 的任一子命令,屏幕将打印类似信息:

[gtx] [info] Current sys info: /ssd-cache/ available: 862GB, memory available: 120GB, ulimit of open files: 50000.

gtx运行失败:/ssd-cache 空间不足

gtx 运行分析过程将产生大量的中间文件,运行gtx前,您应经常检查 /ssd-cache 的可用空间。当可用空间小于500GB时,请及时清理无用数据。您可使用系统命令 df 来完成此操作:

  1. 检查 /ssd-cache 可用空间

df -h /ssd-cache
  1. 确保没有 gtx 进程运行

ps -ef c| grep gtx

如果命令无任何输出打印,表明没有gtx进程运行

  1. 清理 /ssd-cache 中的数据,如果您确认 /ssd-cache 没有有用数据,保持目录干净:

rm -r /ssd-cache/*