13 research outputs found
OpenBLAS:龙芯3A CPU的高性能BLAS库
BLAS是科学计算中最基础的数学库之一,各CPU厂商都推出了针对各自CPU的优化的BLAS库。龙芯CPU是中科院计算所自主研制的通用CPU,目前已推出了龙芯3号系列。本文介绍了我们发起的基于GotoBLAS 2-1.13 BSD版的开源项目OpenBLAS,针对龙芯3A CPU的优化工作。在BLAS 3级函数的单线程优化上,运用了分块,手工核心汇编,使用龙芯3号128 bits访存指令和预取指令,汇编指令重排等技术。BLAS 3级函数平均性能高于GotoBLAS和ATLAS 75%和17%,其中,双精度函数高于GotoBLAS和ATLAS 103%和36%。在BLAS 3级函数并行化方面,采用数据缓冲区交错布局等技术,减少多线程对共享L2 Cache的争抢。 OpenBLAS BLAS 3级函数的4线程并行加速比达到3.47。 4线程BLAS 3级函数平均性能高于GotoBLAS和ATLAS 69%和34%,其中,双精度函数高于GotoBLAS和ATLAS 89%和55%。中国计算机学
P-QuantWiz:一种基于质谱的并行非标记定量软件
本文设计并实现了基于质谱的非标记定量软件QuantWiz,通过改变肽段定量的顺序,提高了定量软件的时间局部性和质谱数据缓存的命中次数。分析了QuantWiz的多种数据并行策略,设计并实现了按保留时间划分的并行定量软件P-QuantWiz。通过实验验证P-QuantWiz具有良好的并行效率,当进程数为32时,并行效率为63%
a cuda-mpi algorithm for the fast fourier transform on the hexagon and its implementation
本文研究六边形区域上快速傅里叶变换(FFTH)的CUDA-MPI算法及其实现.首先,我们通过充分利用CUDA的层次化并行机制及其库函数,设计了FFTH的高效率的CUDA算法.对于规模为3×2048~2的双精度复数类型数据,我们设计的CUDA程序与CPU串行程序相比可以达到12倍加速比,如果不计内存和显存之间的数据传输,则加速比可达40倍;其计算效率与CUFFT所提供的二维方形区域FFT程序的效率基本一致.在此基础上,我们通过研究GPU上分布式并行数据的转置与排序算法,优化设计了FFTH的CUDA-MPI算法.在3×8192~2的数据规模、10节点×6GPU的计算环境下,我们的CUDA-MPI程序与CPU串行程序相比达到了55倍的加速;其效率比MPI并行版FFTW以及基于CUFFT本地计算和FFTW并行转置的方形区域并行FFT的效率都要高出很多.FFTH的CUDA-MPI算法研究和测试为大规模CPU+GPU异构计算机系统的可扩展新型算法的探索提供了参考.In this paper,we study the parallel algorithm based on CUDA and MPI for the Fast Fourier Transform on the hexagon(FFTH) and its implementation.Firstly,we design a CUDA FFTH algorithm by utilizing the hierachical parallelization mechanism and the build-in CUFFT library for classic rectangular FFTs.With respect to the serial cpu program,our CUDA program achieves 12x speedup for 3*2048~2 double-precision complex-to-complex FFTH.If we ignore the PCI between main memory and GPU device memory,around 30x40x speedup can be even achieved.Although the non-tensorial FFTH is much more complicated than the rectangular FFT,our CUDA FFTH program gains the same efficiency as the rectangular CUFFT.Next,efforts are mainly contributed to optimization techniques for parallel array transposition and data sorting,which significantly improve the efficiency of the CUDA-MPI FFTH algorithm.On a 10-node cluster with 60 GPUs,our CUDA-MPI program achieves about 55x speedup with respect to the the serial cpu program for 3*8192~2 complex-to-complex double-precision FFTH,and it is more efficient than the MPI parallel FFTW.Our research on the CUDA-MPI algorithm for FFTH is beneficial to the exploration and development of new parallel algorithms on large-scale CPU-GPU heterogeneous computer systems
基于Julia语言的并行计算方法初探
Julia 语言是一种在MIT 许可证下免费的开发中脚本语言(beta 0.2.0),目标降低并行程序的编程难度.本文将基于Julia 现有语法机制,逐步深入Julia 语法特性,结合公交线路的平均走行时间统计案例,研究Julia 并行编程框架和程序逐步精化的方法.Julia 程序支持本地多核心/多CPU 并行计算,为充分发挥实验平台的计算潜能,本文尝试了提高Julia 程序计算性能的策略.对案例程序的实验分析表明,Julia 并行程序在管理计算核心方面耗费一定的工作时间,但随着问题规模的增大,其影响将渐可忽略,获得了接近线性的加速比
improved hpl software package based on mixed precision algorithm
利用求解线性方程组的混合精度算法,对HPL软件包进行改进。从性能与加速比、迭代时间与迭代次数以及误差分析3个方面,在四路AMD Opteron870双核处理器平台上,对原HPL与改进的HPL软件包进行对比测试。实验结果表明,改进的HPL软件包在保证双精度浮点精度要求的前提下,计算性能大约提高1倍,并具有良好的可扩展性
implementation and performance analysis of cpu-gpu parallel matrix multiplication
实现ATI平台上的CPU-GPU混合并行DGEMM,采用在GPU和CPU上同时进行计算的方法来提高运算性能。实验结果证明,当矩阵规模较大时,在AMD Phenom II X4 940和ATI FireStream 9270平台上,混合DGEMM性能相对于单独使用GPU平均提升了16%。通过实验验证了混合DGEMM性能、加速比、任务分配比例的估算方法,并探讨了影响混合DGEMM性能的各种因素
北京地区全新世植被和气候变化研究进展
该文综述了北京地区全新世以来植被演替和气候变化的相关研究资料,这些资料反映了当前阶段对该地区该时段植被与气候环境格局特征的认识。北京地区全新世早期(约12 000–8 000 cal a B.P.)植被为森林草地和/或针叶树占主导的针阔混交林,森林中阔叶树类群逐渐增多,指示了气候由寒冷干燥转为温暖湿润;全新世中期(约8 000–2 000 cal a B.P.前后)植被为暖温带针阔混交林,指示暖湿气候;全新世晚期(约2 000 cal a B.P.以来)转为森林草地和/或针叶树占主导的针阔混交林,气候转向凉干。植被演替反映的湿润度变化与季风区其它地区变化趋势一致。值得注意的是,前人研究揭示北京地区山区与平原中植被类型和类群组成已经出现空间分异。今后如能深入开展定量古气候重建研究,有可能精确描述其气候变化的过程,增进中国不同地理单元同时期气候变化的对比
