良性组织和恶性组织中的空间分辨克隆拷贝数改变

科学作者 / 姓名 / 2025-06-25 04:15
"
  该研究是根据赫尔辛基,巴塞尔宣言和良好临床实践的宣言进行的。该研究在研究启动之前获得了瑞典的区域道德审查委员会(REPN

  该研究是根据赫尔辛基,巴塞尔宣言和良好临床实践的宣言进行的。该研究在研究启动之前获得了瑞典的区域道德审查委员会(REPN)UPPSALA(DNR 2011/066/2,LandstingettingetVästmanland,S。Stenius),以及区域伦理审查委员会(EPN),斯德哥尔摩,瑞典,瑞典(DNR 2018/3-3-31,M。Nisterr)。在参与之前,所有患者均提供有关该研究的完整和足够的口头和书面信息。在入学之前,从所有参与的人那里获得了书面知情同意。

  通过在Västerås医院开放的根治性前列腺切除术获得了整个前列腺。前列腺患者1年龄为82岁,前列腺患者2岁63岁。两者都报告了初始活检时的GLEASON评分为4+3(ISUP级3),并且前后切除术病理学是患者1的ISUP 4级和患者2的ISUP级组4。每个前列腺被水平切割分为一半,水平切割分为一半,并且使用了上部(最接近患者的头部),并切入Stepped 5 mm Mold,以获得5毫米模具。接下来,从圆柱体上切下条纹,并将每个条带切成较小的立方体(患者1和患者2的患者总数为21个)。所有组织立方体均在液氮中新鲜冷冻,并保存在-80°C下,直到嵌入冷冻切片。收集儿童脑肿瘤并由瑞典儿童期肿瘤生物库提供,并储存在-80°C下,直到嵌入冷冻膜。

  人类SCC和病例匹配的解离的正常皮细胞(参考集)是从已发布的数据集获得的。The human lymph node, human adult glioblastoma multiforme (tumour grade IV) and human breast cancer (ductal carcinoma in situ, lobular carcinoma in situ, invasive carcinoma) datasets were provided by 10x Genomics (https://support.10xgenomics.com/spatial-gene-expression/datasets).

  对于前列腺(患者1),将所有21个组织立方体都从底部(每个立方体的两个部分)冷冻到10 µm切片中进行空间转录组学分析。将部分安装在空间条形码的微阵列幻灯片上。参考文献中描述的协议。2,30用于准备所有安装部分,并进行一些修改。在室温下进行固定10分钟,并在37°C下使用外切核酸酶I缓冲液透化30分钟,在37°C下进行0.1×胃蛋白酶(pH 1),持续10分钟。如参考文献中所述,将材料处理到库中。31并使用配对端300 bp读取在Illumina Novaseq仪器上进行测序。

  覆盖空间组织优化载玻片和试剂盒(10倍基因组学)用于优化组织切片的通透条件。根据制造商的说明,对每位患者的一个10 µm部分进行处理。使用visium v​​isium v​​isium基因表达载玻片和试剂盒(10x基因组学)生成了每个组织截面的空间条形码cDNA。根据制造商的说明固定了前列腺患者1的组织切片,并进行透化8分钟。使用丙酮在-20°C下将前列腺患者2的切片固定10分钟,并透化15分钟。将12 µM的儿童脑肿瘤切片透化30分钟。根据10倍基因组学库制备方案,生成了所有组织切片的库,并在Illumina测序仪器上进行了测序。

  对于1K数组,使用ST Pipeline V.1.5.1软件处理FASTQ文件32。将转录本用STAR33映射到GRCH38.79人参考基因组。使用HTSEQ Count Tool34对映射读数进行计数。使用TAGGD UMI Filtring35的实现来消除空间条形码,以删除重复的读数。在去除少于100个基因或转录本的斑点后,每个位置获得了3,582个独特基因和10,734个独特的转录本。

  对于10倍visium阵列,在其他地方为人类SCC试样的其他地方描述了有关数据分析之前数据处理的详细信息,以及由10倍基因组学(https://support.10xgenomics.com/spatial-gene-gene-gene-gene-expression/datasets)提供的人类SCC样品和数据集。对于儿童脑肿瘤,修剪读数2可以使用Castadapt36去除TSO适配器序列和poly(a)均聚物。然后将修剪的FASTQ文件通过太空游侠(版本1.0.0,10x Genomics)运行,其中读取被映射到人类参考基因组(GRCH38,版本93)。使用Space Ranger(前列腺1的1.0.0版和1.2.1版本的前列腺2; 10x基因组学)直接处理前列腺样品的原始测序读取,并使用与上述相同的人类参考基因组进行映射。在删除患者1或患者2的斑点少于100个基因或转录本的斑点后,在2,104个独特基因中的2,334个和5,711个独特的转录本中的10,221平均为10,221。

  如前所述进行了GEF分析。在所有分析中,我们将数据分配到t = 25、24和20 GEF(1K,患者1和患者2)中,并进行了5,000次迭代的优化。通过跟踪损失(负非均衡对数后验)来评估收敛性,该损失通过5,000次迭代进行了平稳的趋势。根据其部分注释斑点,以控制样品批处理效应。

  使用Seurat(版本3.2.2)37和Stutility(版本0.1.0)38 R软件包进行了数据处理和可视化。使用输入的函数对UMI计数进行过滤,如果基因在少于五个斑点中存在或总数低于100的总数。所有含量少于500 UMI计数的斑点也被删除。使用SCTRANSFORM将计数标准化,并使用主组件分析进行了降低。除儿童脑肿瘤以外,所有样品使用了前20个主要成分,其中使用了10个成分。通过使用FindClusters识别的先前建立的组件和簇来通过FindNeighbor构造共享最近的邻居(SNN)图来进行基于表达的聚类。除了使用0.2的儿童脑肿瘤以外,所有样品的分辨率参数均设置为0.8。最后,由每种组织类型的先前确定的顶部主要成分构建了二维UMAP嵌入。对于人淋巴结试样,使用FindAllmarkers功能确定每个簇的差异表达基因,仅测试在两个种群中的两个斑点中检测到的基因,即群集或背景。

  使用Illumina Truseq PCR试剂制备WGS的库。使用2×150 bp配对的末端读数对WGS样品进行测序,该读数是在Hiseqx v2.5(患者1)或Novaseq 6000(患者2和3)仪器(Illumina)上测序。在Uppsala大学(https://www.uppmax.uu.se/resources/resources/systems/systems/shystems/the-bianca-cluster/)上,使用sarek处理DNA序列数据。简而言之,运行的步骤是使用FASTQC(https://www.bioinformatics.babraham.ac.uk/projects/fastqc/)对FASTQ文件的质量控制,使用BWA-MEM与Alt-Alt-Alt-Alt-pros and 40相同使用GATK工具(https://github.com/broadinstitute/gatk),GATK标记和基本质量得分重新校准和围绕Indels的读取的联合重新调整。使用对照释放的肿瘤CNV轮廓生成。匹配的正常样品用于调用体细胞CNV。

  将最佳切割温度(OCT)以5μm的厚度切片的新鲜前列腺样品的块将其切片,并将几个连续的部分安装在带正电荷的显微镜载玻片(VWR)上,并将其放置在-80°C下直至处理。在室温下用甲醇和乙酸(3:1比)将切片固定15分钟,在1×PBS中洗涤,并短暂干燥,然后进行降血石和曙红染色和成像。DNA FISH probes targeting MYC/8cent (Cytocell, MPD28000), PTEN/10cent (Cytocell, MPD15000), CKS1B/1cent (Cytocell, LPH039) or EHD2/19cent (Cytocell, LPS047) were added (10–15 μl) on top of the tissue sections, and sections were sandwiched with18×18盖玻片,并用橡胶胶密封(Bionordika,PCN009)。将载玻片在76°C的热板上精确地放置6分钟,以使其成分DNA分子,并立即将其放入具有100%湿度的孵化器中,以在37°C下过夜孵育。轻轻去除盖玻片,并在72°C下含有预热的0.4×SSC的陶瓷罐中洗涤3分钟,并在室温下以0.05 Tween-20的速度转移至2×SSC,然后在室温下2分钟,然后在2×SSC中快速洗涤。为了减少自荧光背景,我们将淬灭探针(Thermo Fisher Scientific,r37630)应用于部分的顶部,在室温下孵育5分钟并在1×PBS中洗涤。然后用DAPI对核进行染色,并使用安装介质(Thermo Fisher Scientific,S36936)安装载玻片。使用×100/1.45-NA物镜在Eclipse直立显微镜系统(Nikon)中获取显微镜图像,该物镜由NIS元素控制。我们每个样品收集了多个图像堆栈,每个图像堆都由30-40个焦平面组成,间隔为0.3μm。

  All Visium spots were annotated on a spot-by-spot basis using Loupe Browser version 5.0 (10x Genomics) for the Visium sections by two uropathologists (R.C. and T.M.). Using a cell-type specific coverage threshold of >50%, the pathologists annotated spots by histological class or as ‘exclude’ (for example, for mixed coverage, when array regions did not cover tissue such as lumens or if a scanning/sectioning artefact rendered it impossible to determine a histological class). The annotations were cleaned, unified and visualized in Loupe Browser for review. Next, a consensus workflow was applied wherein the pathologists were asked to determine a final annotation class if there were discrepancies between benign or cancerous luminal epithelial cells. If there were discrepancies between luminal classes and stroma, A.E. performed a review and reclassification, such that if over 50% of cells of one class could be identified the spot was marked as the corresponding class. If there was uncertainty, the spot was marked as ‘mixed’ and excluded from downstream analysis. The final consensus annotation dataset consisted of a total n of 23,282 spots. We defined low-grade prostate cancers as spots with Gleason grade group 1 and high-grade cancer as spots containing Gleason pattern 4. Final confirmation of benign annotations in regions of tissue harbouring inferred CNVs (Fig. 3, clone C) was performed by assessing digital images of p63/AMACR staining from consecutive tissue sections, with detection of the presence or absence of basal cells by p63 positivity (thus indicating whether the region of interest was benign or tumour). High-resolution images of staining results can be found in the Mendeley repository.

  将前列腺上皮细胞与前列腺2的15个覆盖切片注释,以进行肿瘤组织学。分析了来自良性组织切片的腔上皮斑,以选择良性参考集。使用Loupe Brower在H3_1,H2_1,H2_2和H3_6节中证实了肿瘤组织学。

  为了系统地询问数据,我们开发了一个称为quadialInfercnv(https://github.com/aerickso/spatialinfercnv)的R软件包。使用一系列R软件包(Tidyverse,Seurat,undercnv和HDF5R)以及Python和Python和Bash脚本进行了其他分析。从所有部分的最终共有注释文件中导入组织学注释,并将条形码附加到其部分标识符。接下来,为给定的感兴趣特征过滤注释。导入了Cell Ranger Pipeline(Filtered_feature_bc_matrix.h5)的文件,并以其相应的部分名称附加了条形码。然后,仅对兴趣分析中的那些进行过滤计数文件。计数文件进一步进行了质量控制过滤器8,其中删除了包含500或更少计数的斑点。每个部分都加入了注释文件和计数文件,然后将结果文件全部合并为最终矩阵,该矩阵输出(.TSV文件),用于使用undercnv7进行下游分析。仅通过注释和质量控制过滤器的斑点的条形码再次与注释合并,这些条形码分别导出(.TSV文件)以进行进一步的ruckcnv7分析。最后,根据https://github.com/broadinstitute/infercnv/wiki/wiki/instructions-create-genome-position-file创建了基因组位置文件。

  Inputs to inferCNV7 can include a reference set of UMI-barcoded objects, to improve precise inference of genomic copy number events in the observed population. We first performed an unsupervised analysis of only the benign luminal epithelial reference cells (parameter for inferCNV object: ref_group_names = NULL; parameters for run: cutoff = 0.1, cluster_by_groups = FALSE, denoise = TRUE). Using the denoised outputs, we identified by visual inspection a subgroup of all benign spots that harboured few to no inferred CNVs (Extended Data Fig. 4). The associated dendrogram file (with the cluster structure and each barcode therein) was then further analysed for node selection.

  For unsupervised siCNV analysis, we included the following parameter for the function CreateInfercnvObject(): chr_exclude = c(“chrM”). For the run() function, we used the following parameter values: cutoff = 0.1, num_threads = 10, cluster_by_groups = FALSE, denoise = TRUE, HMM = FALSE. A reference set was used for all analyses, with the exceptions of defining the reference set or if a suitable reference set was not available (Fig. 4 and Extended Data Fig. 11).

  在有监督的SICNV分析(呼叫undercnv7 Hidden Markov模型(HMM)函数)中,UnderCNV7的运行如下。节点身份文件用于代替注释文件。使用了以下suqudCNV运行参数:cutoff = 0.1,num_threads = 10,cluster_by_groups = true,denoise = true,hmm = true。

  对于图1中SICNV事件的全局可视化,我们在全局分析中分析了所有21个部分的空间转录组学(1K数组)数据,而没有参考集。我们进行了分析,使每个空间转录组斑点都在以下rundcnv run()参数下运行:cutoff = 0.1,num_threads = 10,cluster_by_groups = false,denoise = true,hmm = true,hmm = true,Analysis_mode,shialy_mode =“ cells,” cells,” hmm_report_by =“ cell”。为了使整个前列腺的空间可视化全局SICNV剖面,然后确定了检测到的单个基因的数量,以携带推断出的拷贝数增益或损失。为了减少可视化中的背景噪声,对整个数据集中至少35%的所有斑点以及至少45%的给定部分的基因级事件的数量,将最终的HMM调用阈值阈值。在详细询问阈值之后,选择了这些阈值,范围从5%增量的10–90%,具有正面控制,中性和负面控制片段,以实现视觉一致性。

  可视化具有数值节点身份的树状图树,提取节点,并以数字方式选择特定的条形码(visium斑点)并分配了克隆身份。给定分析的所有成员均合并,并为每个visium部分输出包含克隆身份和条形码的.CSV文件。

  Loupe浏览器版本5.0(10倍基因组学)用于从克隆选择中可视化最终的克隆。对于手稿,如果在给定的部分中存在<10个空间斑点(来自1K阵列或visium)中的克隆,则不会可视化。

  两个HMM sICNV(来自文件profecnv.17_hmm_predhmmi6.hmm_mode-samples.png和17_hmm_predhmmi6.hmm_mode-samples.pred_cnv_cnv_regions.dat),并对file cultivation sublclcn offercnof sublcnv.21_deno.21_deNO.21_DENO。CNV。然后将这些合并在最终共识集中,其中为建造克隆树的每个克隆列出了事件(补充表1和2)。简而言之,通过在上面确定的群集中识别CNV共享的何处,因为在上面确定的群集中共享了CNV,假设CNV一旦发生,就无法逆转,这表明这些群集中的细胞中的细胞具有共同的祖先。因此,我们使用这种逻辑来识别簇之间的祖先关系并建立克隆树。由于我们的克隆树将克隆识别为相关的细胞组(而不是简单地是相关的突变,这是在批量序列研究中通常采用的一种方法),在该子树中存在克隆,在空间上并非空间上接近,我们标记了这种不确定性,并在共同祖先之间点虚线标记了这种不确定性。

  为了半定量描述亚克隆之间的“进化距离”,我们通过取下后代克隆中附加CNV的对数(基本2)来确定分支长度,并添加任意值以确保分支始终可见,即使CNV差异很少。该公式为bk = 100log2(| zdescendent | - | zparent |)+300,其中bk是像素中分支K的长度。

  我们通过使用公式dl = 10log2(sl)分配给克隆的样品中的斑点的比例来缩放每个圆的大小,该斑点表示克隆,其中DL表示像素中的圆直径,而SL是与克隆相对应的斑点。

  To validate our manual clone trees, we additionally computed maximum-parsimony clone trees following the instructions provided at https://cran.r-project.org/web/packages/phangorn/vignettes/Ancestral.html#parsimony-reconstructions (Extended Data Fig. 14). We used gene-level HMM copy number inferences (from file 17_HMM_predHMMi6.hmm_mode-samples.pred_cnv_genes.dat) as a ‘user-defined input’ matrix to the R package phangorn. All genes were included; if a clone did not have an inferred CNV event predicted, the matrix information for the gene in that clone was set to diploid.

  Patient-matched scRNA-seq data from dissociated normal skin cells were analysed for selection (previously described) of a benign reference set. This reference set was then used as a reference control for all spatial transcriptomics spots in section T28. Node selection was performed (previously described). One pathologist (R.C.) annotated the resultant clones with the percentage of spots for each clone that harboured stroma, tumour epithelia or non-invasive epithelia (Supplementary Table 6). For siCNV analysis of the childhood brain tumour, patients 2 and 3 were selected as reference samples for patient 1. The selected reference samples appeared to have few to no inferred CNV gains and losses, as shown in Extended Data Fig. 13.

  DNA and RNA data, co-extracted from single tumour cells, were obtained from publicly available data repositories8. Genomic and transcriptomic libraries were aligned to GRCh38.79. DNA-based CNV profiles were analysed and clustered with GINKGO (https://github.com/robertaboukhalil/ginkgo)42. RNA profiles were analysed with inferCNV7, without a reference set, using default parameters. Tanglegrams of hierarchical clustering of both DNA-based copy number profiles and RNA-based inferred copy number profiles were then analysed with the R package Dendextend43.

  获得了患者A21(参考文献9,44),患者499(参考文献10)和病例6、7和8(参考文献11)的RNA数据。对于患者A21和499的患者,只有所有标本的子集都有可用的成绩单数据。对于6、7和8,仅可用RNA微阵列数据,无法通过suppercnv7进行分析。将转录组对齐与GRCH38.79,并获得RNA计数。然后将它们处理到UnderCNV7对象中,并使用标准的Audrcnv设置运行,而无需参考集。使用R。

  为了评估我们对空间转录组数据的计算方法的应用,我们设计了一种生成过程,该过程导致了具有已知(空间结构化的 - 细胞型人群)的组织中的硅空间转录组学实验。简而言之,我们构建了一个空间结构域(代表组织区域),其中我们放置了一组具有共同基因组结构的虚拟细胞,然后让这些细胞通过模拟生长来填充组织区域。在此过程中,每个时间点都可以移动,产生后代,死亡或停滞不前。上面的生成过程以Python代码实现,并作为CLI应用程序可用,可以在GitHub(https://github.com/almaan/growmeatissue)上访问。GitHub存储库还包含更广泛的文档和如何使用代码的示例;用于生成此处显示的数据的确切参数(在TOML设计文件中定义)包含在补充数据1中。

  上述过程用于生成一组包含单个染色体的合成数据,从中,获得的空间基因表达数据与相关的注释一起作为对SICNV的输入输入(这些数据可以在Mendeley Reposority中找到)。根据与实际数据相同的程序分析了合成数据,以根据推断的基因组状态确定的有关克隆人群的输出信息。为了将结果与地面真理进行比较,我们仅专注于未用作参考的一组细胞(非框)。地渗入每个克隆中的每个基因都为每个基因分配一个状态(取决于使用HMM的方法3或6);我们将这些状态转换为一种根据以下方案为“空间渗透态”的分类,该分类更适合于比较:新类别:1,删除;2,删除;3,中立;4,放大;5,放大;6,放大。对于地面真实数据,我们计算了分配给每个位置的所有单元的平均拷贝数,并将此值舍入到最近的整数中。如果给定克隆中的圆形平均拷贝数小于1,我们考虑了一个基因(在克隆中),如果它高于1,如果它等于1。将两个数据集(真实和合成)投入到可比的格式中,则将其放大,然后将其计算为同等的基因(在delet emnotions中),将其计算为同等的(中等)(中等)(中等)(中等)(中等)(中等)(中等)。SICNV分析)。

  要从数据中调用SNV,我们运行了CB_SNIFFER Pipeline(https://github.com/sridnona/cb_sniffer)。22。我们在任何基因中鉴定了从1000个基因组中的1000个基因组45,具有suppercnv7 hmm预测的变化(540万个变体(从3,324个基因)中的患者1的克隆中的h2_1节(图3)中(图3)。该输出总计13,447,918读映射到SNV基因座,该映射对应于在任何位置检测到的573,781个独特的候选SNV基因座。其中,每个克隆的51,945个SNV至少在一个克隆点上读取了一个。我们通过评估分配给特定克隆的斑点中检测到的替代等位基因读取的比率,计算了每个克隆中每个变体的克隆变体等位基因馏分。通过计算给定克隆中的斑点总数,该斑点覆盖了候选SNV基因座,除以分配给给定克隆的斑点的总数,确定了斑点百分比。

  To analyse differentially expressed genes, we used the Seurat R package (version 4.0.5) and imported Space Ranger output files, after which the data were normalized and scaled using the default Seurat NormalizeData() and ScaleData() functions. Differential gene expression analyses were performed comparing groups using the FindMarkers() function with the following parameter: test.use = wilcox. For gene set enrichment analysis (GSEA), the msigdbr R package (version 7.4.1) was used to download the hallmark gene set from the Molecular Signatures Database. Genes that remained following filtering according to quality-control threshold criteria46 (log2(fold change) ≥ 0.25, group percent threshold ≥ 0.1 and adjusted P value ≤ 0.01) were passed through for GSEA. The plotEnrichment() function from the fgsea R package (version 1.16.0) was used to create GSEA enrichment plots.

  All differential expression analysis was performed using gene markers found by two-sided Wilcoxon rank-sum test used by default in the Seurat FindAllMarkers function.

  All spatial transcriptomics experiments, including histology, of prostate samples were performed in technical replicates of two and a biological replicate in the form of an additional whole prostate. All samples and analyses confirmed the original findings. In addition, technical repeats of data analysis (siCNV) were also re-run to confirm analysis results. Single-molecule FISH and spatial transcriptomics experiments on other tissues were not repeated.

  Further information on research design is available in the Nature Research Reporting Summary linked to this article.

分享到
声明:本文为用户投稿或编译自英文资料,不代表本站观点和立场,转载时请务必注明文章作者和来源,不尊重原创的行为将受到本站的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至本站。

热文导读