2021第一期生信入门微信群答疑精选200题 |数据挖掘的步骤包括数据格式吗_在线学习

开通VIP，畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2021.07.14

A：library万能，能加载即已安装

A:否，R包安装有直接安装和编译版安装，选择直接安装版本即可。

A:看群公告

A:不存在即没有安装成功，要按顺序从第一行开始运行代码（先运行R包安装的代码，然后用library()检查是否安装成功）。

A:ex1是对象的名称，不是字符型数据，不需要加引号。

\1.对象是R中存储数据的数据结构，存储在内存中，通过名称或符号访问。

\2.ex1是对象的名称，又可以称为变量，即将某一个对象赋值给一个变量。

\3.变量是有class的，用函数class()来判断，还可以转换。

A:library()后无error即视作R包安装成功。关于R包安装：缺失啥，就独立安装它，一次次的套娃，直到解决它

A:建议安装新的版本，4.0以上的，更新可以直接卸载R，重新安装。中英文版都行。

A:是的，根据自己喜好，但是，软件xftp和xshell是同一套，用起来更加方便。

S:就是点击图标，只有个黑框一闪而过，其他的没反应，打不开

A:这是正常的，igv打开需要耗费一定的内存，还要网络好一点，关掉一些无关的程序，再试试。

A:上课需要用到的数据不大，20G的硬盘空间，够用。

A:8核16G内存512G硬盘，不够

A:需要装电脑的钉钉版，准备工作里提供了软件直接从那里下载即可，也可以去官网下载，钉钉软件是阿里巴巴的，它不太可能有病毒。

A：安装GSVA的依赖包htmltools，注意htmltools的版本问题

A：这两个你都用不上，因为这个软件设计的很人性化，它针对不同年代的电脑都设置了一个快捷方式，但实际上我们最后都使用的是rstudio哦

A:Tools-globaloption-apperence

打开路径上有中文字符

A：先关掉Rstudio，然后按住crtl键，双击Rstudio打开。

A:这个问题非常典型，先搞定R和RSRUDIO的安装，等着上课讲。也可以先对照答疑文档，找找问题所在。

A：不需要。

A:这是个warning，不用管，只有error才需要处理

A:钉钉群，最上方会弹出直播窗口。

任何一个小知识点，一旦你搞透了，都可以写一个笔记

T:大家可以先咨询清楚自己的发票报销情况，问清楚条目，自己填写群公告表格，我们会每个星期批量处理审核一次，不要着急哈

A:等第四周讲完了再拉进另一个群。

A:在钉钉群的群文件中，ppt转为了pdf哦~

A:ocr

A:先学好基础，后面各种教程，会发给大家，在B站-生信技能树。

A:可以但没必要。

A:去钉钉群聊天记录搜索

A:这是一个warning,可以不用管的，error才需要去处理哈

今天下午发现有包是报错的，然后又重新跑了一遍，装这些R包的代码发现原来有的现在的都没有了…再打开R就是现在这样了

A:先library一下，看看哪些没有，没有就重新安装。

A:没有error，不管；只要能library，就说明没问题。

A:没有名字，就叫c

S:R数据科学那本书后面代码都用通道简写，经常看不懂[叹气]

A:大约是第7天会讲到

bwamem-M-t16-R"@RG\tID:id}\tLB:WXS\tPL:Illumina"{fq1}${fq2}samtoolssort-@10-m1G-o./4.align/${id.bam-

echo"endbwafor${id}"date

done

请问一下，这个"@RG\tID:{id}\tLB:WXS\tPL:Illumina"，这个参数的用处是？

A:这个是给数据添加header，在header里设置不同的分组

A:具体操作：鼠标右键单击rstudio的图标，查看，选管理员方式打开。

A:答疑文档Q15,16，提示：包未加载或者未安装

A:可能是又被攻击了，我去弄一下

A:因为你这个是在不同的文件夹里面存储着这些包，你可以看看你的其他文件夹，应该还有两个地方都有包

A:你函数写错了，install没有ed

A:其实你们可以注册知乎（他也是支持md）、幕布、语雀阵地、CSDN、腾讯云社区、科学网。其中，更推荐语雀，幕布适合做思维导图，但是不太适合做笔记。

A:见第一张图的倒数第二行报错信息，关键词“unexpectedinput”，说明“标点符号或者语法有错误”所以无法识别，然后报错，即最后一行代码中有中文括号。

想知道某ENSEMBL对应的基因表达产物是mRNA还是LnRNA……用哪个参数？我试了"BIOTYPE"，"TYPE"都不对。我是用Mus.musculus包做ID转换的。

A2:像GPL16956这样的芯片平台（lncRNAmacroarry）只给出来基因序列，不妨试试看library(devtools)

install_github("jmzeng1314/AnnoProbe")

library(AnnoProbe)

使用起来超级方便

head(probe2gene)

中国大陆也可以选择下面的下载和安装方式

library(remotes)

install_git(url)

Q:那您帮我看看，这个报错是因为什么原因呢？

A:找不到对象，需要先听一下前面的课，数据类型第一节，基础不牢的话，做实战分析必然是一步一个坑的，不能这样没完没了下去，这个报错是因为文件名缺了引号，在数据类型第一节和文件读取部分都有讲。

Q:还有一个问题是没有设置species这个参数，默认值是human，而数据是mouse。

A:卡住了强制关掉重启一下试试，或者去任务管理器中关掉。

有个知识点，好像是按字符串逐个字符排序的，搜不到，怎么把gene10扔到最后去[捂脸]？

A:中文世界里搜不到可以试试英文世界噢，提示：有序因子，需要统一重命名。

这里大概有188个ggplot2画出来的图，有3k行代码。真的是我看到过除了Rstudio出的书以外最全的ggplot2讲解系列。凡是您能想到的，这个内容全都覆盖了，讲解的也是非常清除有条理，整理的是非常全面。

希望每个人都学会搜索，ggplot代码其实不长，但是绘制起来，有可能是三五天。

A:不对，cat是输出内核，cat是打印出来，用来看的，它不属于R语言里所说的常规数据了。（备注：ggplot在写列名时不用写引号，是大佬用了魔法想让你把代码写简单一些，但那个列名仍然是个正常数据。

A：用里面的函数是geochina。

A:第一，文件路径包含中文（课前准备的答疑文档里面有关于中文名的解决办法，照做一下）；第二，eSet没取出来。

A:gse页面有临床信息哦，仔细看。

A:这是德文和法文，不是乱码。

我试过几个极限数值，还有有点不明白？

A:注释写着，break参数看上面的链接，你还没看

这样画出来是探针名？

我把05_volcano_heatmap.r中的n中的行名转换成了基因symbol名，再运行上述代码，基因名是出来了，可是分组信息没了。

A:（1）分组信息没了，跟换了名字绝对没关系，“把纵坐标换成基因名”这个问题已经实现了，现在你要解决的是分组信息去哪里了，这是两个问题。（2）接下来你应该检查代码，比较你的代码和数据和示例代码和数据，改了哪里，就是哪里错了。

A:既然不用标注，成功了，那就是不用。

代码运行成功，但是返回结果kk.up.down.diff都是空的，没有富集到任何。

A:那就是人类，没富集到跟他没关系。

Q:我这个是老鼠，应该怎么换？

A:筛选出中间含有t的字符串。

这两句是等同的么？这样出来结果是一样的

A:这涉及到R语言里面的正则表达式，你搜一下。

这种数据是不是只测了非编码RNA没有mRNA呢？

A:原则上没有这样的产品，理论上是不可能绕过编码蛋白的基因，可以咨询一下公司，还是有一些公司提供这种芯片的。

我下载了jimmy老师推荐的ggplot2绘图网站里的R文件，里面要求的包都已经更新装好了。本来想运行一下试试里面的绘图，然后里面的数据文件“chic”下载不了，这个提示是指源文件chicago-nmmaps.csv找不到还是没有权限呀？

A:这个代码，联网读取了一个csv文件，可能是网络问题，你试试在浏览器打开这个链接看看能不能下载，如果不能下载，就换个网络环境。当然也有可能是链接已经失效了。如果试过浏览器了，打不开网页，可能链接失效可能性大

我已经用了买的jimmy老师的服务器了，那个开通服务器的我就不用了啊[呲牙]

T:上课还是要用上课的服务器

A:像你这样是第一列的列名乱码而已，这是因为这个表格的第一行第一个位置要和行名错开，这个错开的符号编码方式不太一样。至于到底为什么，我不建议你深究，我建议你读取之后，用colnames改名就行。

Q:老师，像excel表另存为csv，有什么细节要主意吗？

A:其实你可以直接读取Excel表格，R语言里面有很多函数可以直接读取xlsx格式的。

A:点是特殊字符哦，需要加上[]，分割的时候是[.]。

A:这个问题，很多知识点，涉及到后面的生信数据格式，等下周讲完，再问不迟，先把R语言学好。

老师，按我的理解，是不是如果是挖掘GEO数据库，R语言就足够了，linux主要应用于TCGA数据库挖掘？感觉linux和R语言的代码和操作习惯有蛮大不同，在初学时，很容易两者记混掉，想让自己有所侧重[捂脸]

A:Linux用于处理原始的测序数据，即公司返回的原始fastq文件。如果只是做数据挖掘（GEO和TCGA），R语言就足够。

A:搜索，R语言，大小写转换。

S:搜了toupper函数，结果赋值就行。

我就斗胆用了个tree，刷屏的有点害怕。

A:ls有一个d参数。

Q:还有一个问题，刷屏后，回不到最开始了？鼠标拉不上去了。

A:无需拉回去。

A:用户名填错。你按照刚才登陆服务器的操作，重新来，这里改为Mar。。。。

Q:还是没能登上去。

A:那你先试试命令行法，sshMar7@192.144.162.230

S:命令行法可以登上去

Q:命令法可以，那就先用命令法登陆吧,讲两种方法本来就是想给大家更多的选择，能登陆上就好有空记得补补课呀。

S:学完R第一个应用是用来计算病人拔管及时率，说起来没啥技术含量，但是比以前一个一个点快多了。

T:有意思，之前有个学员好像还用编程去合并发票。

老师这个火山图的纵坐标怎么理解，有问题吗？

A:很正常。

Q:还有这个热图的样本重复性是不是不太好？

A:样本重复性是不好哦，生物学实验，不稳定性确实会比较大。

请问老师，我已经安装了XFTP，为什么还会弹出“没有安装”？难道需要重新下载最新版本？

A:确定安装了吗，如果是需要更新，那就更新一下，或者先卸载再重新安装。

Q:上次小洁老师发了一个lncRNA和mRNA的注释方法的html文件。请问miRNA的注释方法有没有啊？还有ceRNA网络后面会讲吗，包括TargetScan，miRDB等等？

A:（1）那不是少了一对反引号吗？（`是反引号）你在自动补齐的时候，那反引号就是自动加上去的，并不是自己打的，你应该是自己手动删掉了吧？反引号不成对，导致了命令不完整所以出了+。（2）（Q:虽然不重要，但是想知道出现+的原因）怎么会不重要呢？一句命令没有运行，也没有成功，它怎么能不重要呢？它很重要，你解决不了这个问题，后面的都没办法做了呀。

A:奇数应该是1~2，表示从第一行开始，两行取一行。1,3,5,7。。。跨度是2。

这个代码修改的就是奇数行，没错，如果结果和你理解中不一样，你检查看看你的原文件是不是有问题。

A:感叹号表否定，如果加上，就是处理除了某某行之外。

Q:老师，这样head查看后，为什么不会整齐排列？我第一次看过管道符前面的数据，是整齐的呀？

A:嗯，要想整齐，必须再用管道符传递一下less-S，不过，你这个问题出在你最后用的是head，head只能这样显示。

Q:老师，这个不能主动传送给vim呀？

A:不能这样传输，如果要保存到新文件，要用重定向。

A:在第二天PPT最后一页有鸟哥linux私房菜在线版的链接呀也可以搜一下马哥linux。B站有马哥的教学视频，免费的。

Q:老师，请问下gff文件这里###是什么？

A:注释信息,以#开头，后面可以写任意的内容

T:mamba只是一个conda的扩展而已，华为和荣耀，子公司差不多的意思

A:网络问题导致下载到一半就以为下载完了在安装的时候发现文件不完整。重新运行下命令，mambainstall-y-chccaspera-cli

A:LINUX的练习题：

其次完成生物信息学数据格式的习题(blast/blat/fa-fq/sam-bam/vcf/bed/gtf-gff)，收集这些格式的说明书。

配套视频在：

A:你在用vim编辑的时候可能不小心把第一行给多编辑进去了一个“(”，你仔细检查一下。一般他都会告诉你在哪一行出了什么错误的。

Q:可是我后面重新操作，想把java和samtools的放到环境变量里也是同样报错。我应该怎样才可以退回去重新尝试呢？

A:你的ip是多少我去给你看看，或者你截图你的bashrc文件我看一眼

Q:192.144.162.230

A:只需要给你要执行的软件权限就可以了你执行谁就给谁执行权限。

A:你忘记切换环境到rna啦，base环境下木有java在rna环境里才有哦

A:看$下边的第一行，你在切换vim模式的时候打了一个冒号在这里，把你修改错的地方改回来就好了.你的错误是在第一行写入了一个:那就把这个:拿掉就好了。同时，建议重新听一下第二天的课吧，vim在三种模式之间切换。

A:说实话不是什么大问题只是每次重新加载bashrc的时候都会告诉你这个地方有问题而已.不影响你练习和使用的.你要是看着烦你就去把第一行给改对,如果你觉得无所谓,放着不管也可以,不影响的。

Q:已经修改了，并也完成了samtools和hisat2写入环境变量bashrc里了，就是java写入环境变量运行后还是这样的？

A:你要激活rna小环境才可以正常使用java的软件哦.因为我们给大家的服务器没有自带java,但是小环境里在安装别的软件的时候把java给安装上了,所以要激活小环境后再使用。

A:缺空格，空格是linux最遥远的距离，有跟没有是本质差别。

A:看第二张截图，倒数第5行（ERR），说异常退出，再试一下。

A:给你一点提示,你只要输入的是bowtie2-h或者是其他帮助文档里提到的,不需要配参数就可以直接执行的选项(例如--version),再去跑if判断,就可以运行成功了.(其他需要配参数的选项需要你有对应的文件来运行才能运行成功.这一部分得要转录组课上才会给大家介绍)

A:你的参数传递没写对.所以报的错是说:你重命名前和重命名之后是一样的.因为你{i%file}这个写法匹配不到任何的后缀(因为所有文件的后缀都是file+数字.)如果你想希望让它运行成功,你试试看${i%*}

Q:懂了，这个是全部去尾，不留痕迹呀

A:是的呀你那么写是匹配不上的呀掐头去尾,你那个顶多算中间(末尾还有数字你没算进去呢）

A:你没有添加channel

A:一个>和两个>>的区别，追加符号，

Q:>在运行中挨个覆盖掉了？那为啥视频里>成功了，虽然我现在用>>跑出来了

A:在done之后>config。

A:视频里我也用的是>>ppt里有点小错误非常抱歉，恭喜您捉虫成功。

A:试试到github下载安装包，然后用devtools::install_local

A:务器一般可以使用两个月，实际上，会是n个月，我们觉得需要清空数据的时候会提前通知大家的。

A:他是个工具包，这个是里面的命令集合，你运行一下fastq-dump-h调用成功就可以了

A:第五节课课前讲了的去听一下回放.

Q:参照报错PDF上的解决办法，用mamba安装libstdcxx-ng9.10，报错

A:是9.1.0

A:这个课上有说，你试试看用conda来替代mamba安装这个大概率是mamba的bug。

A:那你换mamba安装试试.没有啥软件会是完美的.我介绍mamba主要是给大家多一个选择.以前conda出错的时候就束手无策了,现在还可以先试试mamba.如果mamba出错了那就退回来使用conda.都出错了再去看看要如何手动解决一下,那就要多搜索多试错了.课时有限,需要大家课后多多练习多多犯错~

A:上课也讲了,有的软件在conda里名字会不一样,这个软件你先打trim然后tab补齐,就可以了.因为软件开发是没有统一的规范的所以不同的软件总会有一些自己的脾气咱毕竟是用人家写的软件就得按照人家的规矩来~

A:不是三组,两组每组三个样本，

Q:哦，两组。如果其他数据集每组多于三个样本，这里改下分组信息就可以了吧？

A:分组信息肯定是要改的，后面的差异分析就没有差别了，样本数量随便，三个和三百个都是一样处理。

A:有些网还是很好打开的比如网吧的网，还可以试一下手机热点，好用。

A:不会没有反应的你可能没有选中当前窗口.另外,可以多开几个窗口,一个专门用来跑top

Q:top真的没反应…关窗口都得等二三分钟才有反应

A:大家把下载数据的任务结束掉，实际上我们学会下载就好，不需要真实下载，数据我们都已经下载好了放在服务器上了，之所以没反应，是因为太多人在用ascp下载数据，服务器的网速都被占用了。

A:软件不会内部升级,两种可能性：第一，看起来是你对miniconda3做了什么操作,导致环境发生了改变。第二，确认一下你敲的命令到底是啥,是ascp还是如你所说的acsp。

Q：解决了，在base里输ascp-h不行，现在在小环境里可以了[抱拳]。前面在小环境里没输对。

A:在base里不可以是正常的因为我们强调不要装在base里,以免造成不必要的麻烦.记得每次登陆的时候手动启动小环境哈。

A:就是你去下载数据需要的一把钥匙，你登陆服务器不是输入了密码么我们去公共数据库下载数据（公共数据的数据存在别人的服务器上）的时候也需要这个东西密钥就是类似这种。

A:你看下参数是不是写对了，大小写参数，而且反斜杠后面不要有空格。

A:如果你是在我们的服务器里下的话,走的不是医院的网速而是我们服务器的网速.可能同时有别的人在下,所以分配到你的网速确实一般.没关系的,这个过程只是给大家演示一下这个工具的用法,你测试过能跑通就可以了,正式上课的数据已经放在服务器里了的。而且确实下数据是很耗时的这是常态。

Q:可为什么别人的下载速度都比我快呢？难道是人品问题

Q:还是观念没转换过来呀，始终认为是在自己电脑上操作

A:医院的网速只决定了你链接服务器的速度例如你敲命令下去的反馈快不快(是敲完就有反应还是等三五秒才跳出来)以及如果网络不好的话会不会经常连着连着服务器就断开了。

A:cat-A，查看sra.url的问题。另外，你认为没有赋值是你没理解while的语法，回去翻一下我讲for循环和while循环的录屏。

Q:我作业里的截图也不是这样呢？

A1:加-A才能看见末尾那个特殊字符。

A2:你这个文件是不是从你本地的windows传上去的或者在Windows环境下打开过

Q:没有，直接链接过来的

A:好的吧老师今晚会讲是编码的问题，有些不可见字符会产生意外的影响的。

A:只要知道其中的一些字符的含义就知道这句话的含义了.首先,\s代表任意的空白字符,空格或者tab都算.\s*$匹配的是从空白字符到末尾的所有字符.sed的s///g是进行全局替换.来,你觉得是啥作用[奸笑]

Q:还是有点费解，-i直接修改sra_url文件，全局替换空格到末尾,替换成什么呢？s/\s*。这个代表的是：空白到句末所有的特殊字符？

A:不设置就是替换成空,替换成空就是删除。

Q:文件末尾有需要去除吗是真的有呢还是这个$其实代表的是行末呢

A:既然是默认的就是默认的为什么是这个值那就要问问这个数据库的管理员了技能树的服务器端口是22你问问管理员为啥要设置默认的是22。

Q:意思是端口是咱么这个服务器设定的，只要用这个服务器就是这个端口数值的意思

A:对的，随便设置成啥都行。

Q:如何知道自己服务器的端口号呢？

A:问你的管理员。

A:账号是公用的但是每个人都有一个密钥呀这就是为啥要设置密钥的原因不是谁拿到账号都可以下的得提供对应的密钥才可以下载。

A:$是结尾的回车符，没有这个符号在所有的行就都串成一行啦那个是不需要去除的你要去掉的就只有^M。

Q:可别人交的作业里，末尾没有这个$符号呀？

A:那是因为没有用cat-A，作业里加了-A之后也是有$符号的呀。

Q:那是因为我比较笨...这么一小段段代码，看半天都看不懂[流泪]

A:也不稀奇，无非就是学习。

A:成功运行起来了,可以试试用htop查看,加上-u指定自己的用户名，这样查看的任务就都是自己的任务了。

A:那你要kill掉任务，你挂后台了吗用了nohup吗？

Q:没有nohup，用了&

A:kill也没能终止

Q:说明没kill到，你回去看看linux第五天的课，讲如何kill任务的部分，你没有挂起但是让任务后台运行了要么根据id号去kill命令要么简单粗暴一点把你挂后台用的那个会话窗口给关掉。

A:ftp浏览它，点击鼠标删除。

A:你是不是用鼠标的滚轮往上滚了一下

A:你检查一下你的命令缺东西咯

S:谢谢老师，发现了，少了用户名。

这个不是表示行尾哦，$表示行尾，*表示：号前面的匹配多次，所以，\s表示匹配多个空格。

A:kill掉

Q:怎么批量kill它们？

A:可以把输出的结果，重定向到一个脚本，然后再运行这个脚本。-O后面那个路径没有。也可以试试，直接echo${fgdir}看看有木有输出。

文件出来后好半天才出[+1]Done....的提示

A:一行，两个fastq文件，使用分号给他劈开。你这个filereport文件是本地传上去的吗？咋又带空格又带括号的？

T:pipline的文档里面有这个代码。

A:--split-3没有空格

A:只是路径不对，你想想你的这个文件是保存在哪个路径下。而且提示“文件不存在？”这个路径是你tab补齐的吗，还是手动打的呢？用tab补齐就不会有这个问题哦~

A:你解释一下rm命令是什么意思。假如你以后是服务器的管理员，记得不要rm-rf/

Q:用自己的路径也传输不出来

A:第一，你能先ls查看一下这个路径存不存在吗？截图给我们看看你有没有这个文件夹。第二，老师的文件夹里也没有一个叫做sample.ID的文件，应该是:sampleID.txt。所以，问题是没有sample.ID这个文件，怎么能cat出一个不存在的文件呢？第三，sample.ID就跟md5一样，是从源TSV文件里cut出来的样本号列，形成的文件，需要自己搞一个。你把视频看完就知道我怎么操作的了，重要的是理解传进来是个什么东西。

S:这样可以

T:你就用这个文件往下做吧下次碰到这种找不到文件的情况不要死磕看看同个文件夹下有没有相近的文件死磕太影响你学习的进度和心情了

A:回去重新看一下选项用哪些，p和f没分清。

A:你的fqdir分别echo出来看一下

T:上课的时候讲了，自定义变量的时候不要加空格。还有，你这个qcdir设置了个寂寞呀hhhhh[旺柴]

A:哪一步应该有这个gz文件呢截图我看看还有你的脚本内容cat出来看一下

然后接着运行解压，然后就nohup挂在后台解压，步骤，命令执行感觉都是正常的，最后运行完了没有出现解压后的gz文件。应该每个文件有生成2个gz文件才对呀？

T:你定义的输出目录是这个，生成的文件都保存在这里/trainee2/Mar11/project/Human-16-Asthma-Trans/data/rawdata/fastq/

S:原来是这样呀，我又理解错了，我以为系统会自己识别fastq和fq（简写）[捂脸]谢谢老师！

T:你以为的不是你以为的，计算机底层只有0和1，你说什么，它就做什么。

S:我是要重复看上3遍左右视频，一边看视频一边操作，然后操作个几次才能明白老师每个命令的意思。

T:不能光看视频，还有自己实际操作一遍，分清楚输入输出。

S:我做单个样本过滤时定义过一次，多个样本过滤时没有重新定义，是不是因为这个因素的影响？

感觉是输入到sra文件里这个才是多个样本过滤的输出对么？

T:是你ls的结果，本身就是一长串的路径，传递给whilereadid的时候，就带有路径了。

A:上课有提到类似的报错，在error.pdf文件有，或者翻翻聊天记录。这个是因为salmon依赖的tbb库默认安装的最新的2021.1.1版本,这个版本会报libtbb.so.2不存在的错误,解决办法是降级tbb,用conda安装一个2020.3版本的tbb依赖即可，代码为：mambainstalltbb=2020.3

A:我们上课用的服务器，应该没有这个软件

Q:mambainstalllibstdcxx-ng=9.1.0，尝试用过9.2.0/9.3.0都不行

A:原先的报错解决了，现在是新的报错。理解下这句代码cp~/miniconda3/lib/libstdc++.so~/miniconda3/envs/rna/lib/libstdc++.so.6

S:不太懂

T:就是拷贝了一个文件，你运行看看

T:嗯，你的小环境是rnasq，所以要把对应的路径改一下，所以才叫你理解一下这句代码。

A:可执行文件，用路径的形式调用。

A:用这种形式调用./table_annovar.pl

Q:如果用我自己的路径，我的命令应该怎么调整才是合适的呢？

A:rim_galore--phred33-q20--length15--stringency3--fastqc--paired--max_n3-o/trainee2/Mar11/project/Human-16-Asthma-Trans/data/cleandata/trim_galore/trainee2/Mar11/project/Human-16-Asthma-Trans/data/rawdata/fastq/SRR1039510_1.fastq.gz/trainee2/Mar11/project/Human-16-Asthma-Trans/data/rawdata/fastq/SRR1039510_2.fastq.gz

你先单独运行一个样本的两个fastq文件，然后对比你的这个脚本里面的路径，看看是哪里出错

OTICE:Runningwithsystemcommand

Error:cannotwriteLOGinformationtologfilemyanno.refGene.log:Permissiondenied

Errorrunningsystemcommand:

报了一个error：cannotwriteLOGinformationtologfilemyanno.refGene.log:Permissiondenied

A:建议先把课堂讲的转录组学好，再学其他数据处理，不然会一直报错的，

A:引号不成对或者括号不成对，CtrlC

A:因为你循环提交的，找到主任务。

Q:怎么找主任务？

A:ps-ef|grep用户名

Q:请问这哪个是主任务？我把21505和21507这两个都kill掉了，还是不行

A:第一个

A:检查输入文件，搜一下报错信息

A:没关系

A：你的nohup.out是之前就生成的，现在你要查看log日志里面的信息

A:听课了吗，-X25000

Q:不是说25000只是演示，可以不用吗？

A:嗯，现在你是练习，建议加上，先学会整体的流程框架。当你自己实际处理时，不加，程序会运行好几个小时，一般挂载后台。

A:用ls试试看能不能补全出你要的这个文件，如果补全不出说明你指定的位置是有问题的你就去确认一下具体的位置

Q:能补全，文件是存在的，按道理说应该跟老师一样可以cat出来啊

A:存在的文件，和你zcat的文件，是一个吗，你仔细看看呢

A:这是按了tab补全出来的，因为有多个，所以就补全到SRR103951而已，要选一个继续输入，然后继续补全，你这里多按几次tab试试看

Q:啊，原来是这样，我还以为说为什么老师能导出来，我的不行。原来是tab出来的。我明白了。看视频里看不到老师按tab键，所以我以为是这样输入就可以调出来下面文件[破涕为笑]

A:分步运行，看看每一小句命令的运行结果

A:awk指定一下分隔符-F，为\t，cut你看一下怎么改变顺序

A：是的有的软件如果没法用conda安装的话，就得手动安装。手动安装的三种方式中，如果能用二进制的文件就最好了，即开即用；java的也是下载解压就能用。要编译的话就得按照编译的三部曲走一走了，不一定会成功，跟服务器的依赖有关系。

Q:老师，像退出服务器的断开，再次接上服务器，也可以用-c参数实现断点续传？

A:可以，但是要在上次下载的路径下，你看看下载一半的文件保存在哪里，去到那个目录继续下载。

Q:老师，我想这下载好的东西，在同样的路径下，我再次运行下载的命令，是不是出现下面的报告，也算是证明下载完全了？

A:对你看他也说了这个文件已经完全拿到了，没有可以继续下载的内容了就说明是下载好了。

A:你要软连接到哪里，要加一个目标路径

A:这个管道符后面的-代表前面生成的sam文件，差不多是这个意思，因为sam文件比较占用空间，所以我们把sam文件转为bam文件了。

A:最后面不用接cat，因为awk的print会打印到标准输出流的。你print和$0之间为啥不空格呢？

S:有空格和没空格输出是一样的

Q:print输出，[1..9]输出整行，这是什么原因？

T:感觉你是专门来考验我们讲师眼力的。

S:awk功能真是强大...又get了一项新技能[呲牙]

T:学会三驾马车，实现95%的文本处理需求。

A:你要去到自己的目录啊，试图在我的目录解压我的文件咋能不出错呢，你的所有操作得在自己家目录下的文件夹里才能完成。

A:可以软链接

A:因为这几个是文件夹，ls*就会加个冒号。如果你文件夹下面还有内容的话,会显示在现在空着的那一行里.这个冒号是为了标明文件夹下面的文件是从属于哪个文件夹的。

A:卡住了嘛看起来是vim打开的样子你多按几次回车试试看。

这两个推文你结合起来看。非常的有意思。

1.差异分析的包limma，edge，DESeq，输入的数据都是raw-count（过滤后的），那包内部进行的标准化和（最开始分析总体数据集中性）edgeR包的cpm有差别？edgeR的cpm函数是不是和edgeR包做的差异分析里的标准化是一样的？

A:qvalue是p值矫正的一种方式哦，你搜索一下padjust，统计学概念了。

A:是的。

最后一张是老师给的代码。

A:检查一下你的输入文件，你的fastq.gz文件里面有内容么

S:有的

T:是不是程序还在运行

S:今天确实还没运行完，但是昨天任务运行完之后也没有html文件，我换成老师提供的fastq数据，又试了一下，还是没有html文件

T:你提交了任务，会输出log日志，你检查一下，如果没有把log日志保存下来，就在前台提交，不要挂到后台，仔细看看输出的信息。

T:嗯，有可能是环境问题，你试试卸载fastqc，重新安装。

A:把上课讲的数据下载部分，重新听一遍

S:上课老师讲的在ENA数据库下载，我这边要翻墙之能在sra下载，但是用prefetch下载又太慢了，就想用aspera下。

T:用aspera下载ENA数据，上课就是这么讲的，ENA网站，一般的网络是可以访问的，你试试用手机热点。实在打不开，就把SRA的ID号发到群里，请大家帮你获取网址。

A:你看看你在数据库勾选的时候有没有把这一项勾选上，如果有勾选但是依然为空，那就是暂时不支持aspera下载。

A:你的dat是空的，所以要检查一下前面的代码

A:少了一个-i

A:网络问题，换个网络环境，实在不行，去网吧，一般来说网吧里的网络很棒。我们有镜像，也是一个帮助：ibrary(AnnoProbe)

A:group是错的，可能是大小写

A:两个方案均可

我运行的时候报错了

A:中划线-是前一句命令的。&&你可以理解为一个分号的作用，前面是一句命令，后面是另一句命令，两句命令独立的。

Q:那我运行这个文件的时候提示samtoolssort:failedtoreadheaderfrom"-"，最后没生成我要的文件，这个是怎么回事？

A:可能是你上一步出了问题,回去检查一下log看看有没有报错.&&及之后的是另一条命令.这样用&&写在一行的好处是只有前面的任务成功运行了,&&后面的命令才会被运行.因此相对于写在两条里,这种写法是有好处的

Q:单独运行没出现问题，但是用管道符联合运行就不行，看报错的意思说我要输出的文件不存在（问题是那个是我要生成的文件肯定原先就不存在吧？），直接用&&把三句放一起了

A:你一步一步检查一下看看前面的内容估计是前面的哪一步写错了或者运行错了才导致到这一步没法运行的。

A:rm-rfminiconda2

A:是因为f开头的文件有多个，你要再给电脑点提示，比如打fi再按teb，这样系统就能知道你指定的是哪个文件了，tab*

A:当然是分组

A:重启Rstudio，先运行更新rlang包的代码

A:后缀仅仅是一个标记，给人看的，不影响程序代码识别它。加或不加，使用起来一样，但是他们的图标看起来不一样。

A:你还没开始处理数据呢，现在切换一下就行，除非你要安装或者使用conda安装的软件，否则不用有这方面的疑虑。

A:CrtlC

T:我尝试复现了你的代码,在你没有修改这个文件的前提下,在我们的服务器里应该是能正常运行出来的.但是如果你提供的信息是不全的,比如你后面的截图没有把代码截全等等情况,那就很难说为啥会报错了

T:你的代码除了能输出第一行之外,还输出了很多的空行,看起来很像是在less里面,例如我下面的代码和结果图.所以下次提问的时候记得截图截大一点、全一点哦,否则我们也很难给你解答的呢

S:老师重新下载后还是空的我明明是勾选了的呀[破涕为笑]

T:less-S/trainee2/Mar23/Data/rawdata/sra/filereport_read_run_PRJNA229998_tsv.txt了解你下载的文件，里面没有sra，但是有fastq，你完全可以直接下载fastq，然后就fastq文件进行md5校验。至于为什么没有sra，可能是你下载的时候没勾上，或许也可能是某个bug，不过这并不重要，你可以直接从fastq开始，跳过sra转fq这一步。

T:是的。

解读GEO数据存放规律及下载，一文就够

解读SRA数据库规律一文就够

从GEO数据库下载得到表达矩阵一文就够

GSEA分析一文就够（单机版+R语言版）

根据分组信息做差异分析-这个一文不够的

差异分析得到的结果注释一文就够

看看这个系列，去理解各个数据库的对应关系。

S:但我还是不知道为什么我下载的就没有[破涕为笑]

T:因为你对ebi数据库页面不熟悉啊，等你写一个ebi数据库一文就够，

参考我之前的。

是R编码的问题，解决方法见截图，可以去terminal里运行，也可以在R中运行，但是要加上system("defaultswriteorg.R............")

THE END

2021第一期生信入门微信群答疑精选200题

数据挖掘的基本步骤是什么常见问题

5个步骤，用SPSS进行数据分析数据挖掘spss软件包

计算机辅助审计技术范文

erp导出数据到wpsERP怎么导入WPS

《数据挖掘的概念》PPT课件.ppt

2021第一期生信入门微信群答疑精选200题

美国TMS发布《利用材料创新支持下一代制造技术》报告

数据挖掘流程一般包含六个步骤

快速上手kettle(二)小试牛刀上一期中大概介绍了下kettle，并已经把kettle下载安装完了。这一期我们就来简