南开大学21秋《并行程序设计》在线作业三满分答案41

上传人：住在****他文档编号：97083421 上传时间：2022-05-26 格式：DOCX 页数：14 大小：14.52KB

收藏版权申诉举报下载

第1页 / 共14页

第2页 / 共14页

第3页 / 共14页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《南开大学21秋《并行程序设计》在线作业三满分答案41》由会员分享，可在线阅读，更多相关《南开大学21秋《并行程序设计》在线作业三满分答案41（14页珍藏版）》请在装配图网上搜索。

1、南开大学21秋并行程序设计在线作业三满分答案1. CUDA共享内存是由_共享。A.Grid中所有线程B.一个Block中所有线程C.一个Warp中所有线程D.GPU中所有线程参考答案：B2. 一个程序用pthread_create创建了4个线程，此时系统中属于这个程序的共有_线程。A.4B.5C.6D.7参考答案：B3. R*=1.3; G+=1.8; B+=1.2; X*=1.1，此程序片段可进行SIMD并行化吗?( )A.不可以B.可以C.不确定D.以上皆错参考答案：A4. SSE intrinsics _mm_store_pd命令的功能是_。SSE intrinsics _mm_stor

2、e_pd命令的功能是_。A.对齐向量存单精度浮点数B.未对齐标量存单精度浮点数C.对齐向量存双精度浮点数D.未对齐标量存双精度浮点数参考答案：C5. 对矩阵乘法串行程序主体三重循环的最内层循环进行向量化，则该循环执行完毕后，还需进行SIMD寄存器中几个元素的_操作才能得到结果矩阵的一个元素。对矩阵乘法串行程序主体三重循环的最内层循环进行向量化，则该循环执行完毕后，还需进行SIMD寄存器中几个元素的_操作才能得到结果矩阵的一个元素。A.排列B.交换C.广播D.归约参考答案：D6. 对于加速比S和处理器数量p，下列说法正确的是_。A.有可能SpB.必然SpC.不可能S=pD.两者无关联参考答案：A

3、7. SSE寄存器A中元素为A1 A2 A3 A4(均为由低到高)，则执行C=shuffle(A, A, 0x1B)后，C中元素为( )SSE寄存器A中元素为A1 A2 A3 A4(均为由低到高)，则执行C=shuffle(A, A, 0x1B)后，C中元素为( )A.A1 A2 A3 A4B.A2 A1 A4 A3C.A3 A4 A1 A2D.A4 A3 A2 A1参考答案：D8. 主线程创建了4个从线程然后打印一条信息，从线程打印各自的线程号，未使用任何同步，则主线程打印的消息和从线程打印的线程号的相对顺序_。A.必然主线程前、从线程后B.必然从线程前、主线程后C.必然相互交织D.各种顺序

4、皆有可能参考答案：D9. AVX是( )平台的SIMD架构。A.x86B.POWERC.SPARCD.ARM参考答案：A10. 记并行时间为T，串行时间为T&39;，处理器数量为p，并行效率E的定义是_。记并行时间为T，串行时间为T，处理器数量为p，并行效率E的定义是_。A.T-TB.T/TC.T/pTD.pT-T参考答案：C11. 动态线程编程模式的缺点是_。动态线程编程模式的缺点是_。A.线程管理开销高B.系统资源利用率低C.线程任务分配困难D.线程通信效率低参考答案：A12. GPU相对于其他众核产品的优势不包括( )。A.平台普及B.有CUDA这样易学的开发工具C.性价比高D.由英伟达

5、公司一家把控参考答案：D13. SSE intrinsics_mm_store_ps命令的功能是( )。A.对齐向量存单精度浮点数B.未对齐向量存单精度浮点数C.对齐标量存单精度浮点数D.未对齐标量存单精度浮点数参考答案：A14. OpenMP不能实现的是( )。A.负责创建和管理线程B.隐藏栈管理C.提供同步机制D.自动并行化参考答案：D15. 在条件不成立时，使用pthread_cond_wait_。在条件不成立时，使用pthread_cond_wait_。A.令线程阻塞B.解锁互斥量C.解锁互斥量然后令线程阻塞D.加锁互斥量参考答案：C16. SSE intrinsics_mm_stor

6、e_sd命令的功能是( )。A.对齐向量存单精度浮点数B.未对齐向量存单精度浮点数C.对齐标量存双精度浮点数D.未对齐标量存双精度浮点数参考答案：C17. 静态线程编程模式的缺点是( )。A.线程管理开销高B.系统资源利用率低C.线程负载不均D.线程通信开销高参考答案：B18. 将t个线程的局部结果汇总，可采用递归分解并行进行，即，两两汇总，中间结果继续两两汇总，直到剩下唯一的最终结果，其时间复杂度为( )。A.(1)B.(logt)C.(t)D.(tlogt)参考答案：B19. 加速比计算中串行时间应该取求解同一问题的哪个串行算法的时间_。A.任意一个串行算法B.作为并行算法基础的那个串行算

7、法C.已知最优的串行算法D.所有串行算法的平均时间参考答案：C20. 每个AVX寄存器宽度为_位。每个AVX寄存器宽度为_位。A.32B.64C.128D.256参考答案：D21. 下面哪个问题相对而言更不适合进行数据并行_。下面哪个问题相对而言更不适合进行数据并行_。A.求和B.排序C.向量加法D.矩阵乘法参考答案：B22. 超立方中相邻节点二进制编号_。A.至少差1位B.至多差1位C.恰好差1位D.差异不固定参考答案：C23. OpenMP归约指令采用的是一种_算法。A.分治B.贪心C.动态规划D.排序参考答案：A24. 一个SSE寄存器可容纳( )个短整型数。A.2B.4C.8D.16参

8、考答案：C25. OpenMP的缺点不包括_。A.常见并行结构的表达并不总可行B.局部性处理不易C.不易编写多核单核通用程序D.性能控制不易参考答案：C26. MPI基本原语不包括_。A.MPI_BarrierB.MPI_Comm_rankC.MPI_Comm_sizeD.MPI_Init参考答案：A27. 为利用cache空间局部性，需满足_。A.cache空间足够大B.cache line足够大C.程序访问的数据量足够小D.程序访存模式符合空间局部性特点参考答案：D28. 我国最近一次夺得全球超级计算机计算能力冠军的是_。A.天河1号B.天河1AC.天河2号D.神威太湖之光参考答案：D29

9、. 编写n个数求和的OpenMP程序，最高效的方法是( )。A.多线程直接并发累加到共享变量B.将累加操作设置为临界区C.在累加操作前设置障碍D.采用归约指令参考答案：D30. CUDA的优点不包括_。CUDA的优点不包括_。A.可移植性B.入门简单C.标准的SPMD模式D.不再需要图形API参考答案：A31. 使用_无法直接实现“主线程等待4个从线程完成任务”。A.1个信号量B.障碍C.1个互斥量D.4个互斥量参考答案：C32. 关于并行代价，下面描述正确的是_。关于并行代价，下面描述正确的是_。A.总是小于串行时间B.总是大于并行时间C.总是与并行时间渐进相等D.以上皆错参考答案：D33.

10、 OpenMP中多线程间是一种( )关系。A.主从B.分组C.对等D.竞争参考答案：A34. 在使用互斥量之前必须对其进行( )。A.初始化B.加锁C.解锁D.销毁参考答案：A35. _执行pthread_sem_wait操作，线程进入阻塞状态。A.当信号量已加锁时B.当信号量为0时C.当信号量已超过阈值时D.当信号量已销毁时参考答案：B36. OpenMP并行模型是一种_模式。OpenMP并行模型是一种_模式。A.SISDB.SIMDC.MISDD.SPMD参考答案：D37. MPI默认点对点通信模式是( )。A.阻塞的B.非阻塞的C.对等的D.主从的参考答案：A38. 任务依赖图中顶点权重

11、之和表示( )。A.任务数B.任务难度C.串行执行时间D.并行执行时间参考答案：C39. 下面哪种架构最适合数据并行?( )A.SISDB.SIMDC.MISDD.MIMD参考答案：B40. 矩阵每行排序的问题更适合使用MPI的_编程模型。A.阻塞的B.非阻塞的C.对等的D.主从的参考答案：D41. pthread_create函数中线程函数指针的正确类型是( )。A.void(void*)B.void*(void*)C.int(void)D.void*(*)(void*)参考答案：D42. 实现任何时刻都只有一个线程进行共享变量更新的OpenMP指令是_。实现任何时刻都只有一个线程进行共享变

12、量更新的OpenMP指令是_。A.omp parallelB.omp barrierC.omp criticalD.omp reduce参考答案：C43. 利用cache line一次读取多个数据字的机制优化程序访存性能，其机理是( )。A.降低了访存延迟B.隐藏了访存延迟C.利用了cache空间局部性D.利用了cache时间局部性参考答案：C44. SIMD并行化时遇到对齐问题，高效的处理方法是( )。A.直接使用SIMD不对齐访存指令B.将数据拷贝到对齐的内存地址C.重写算法保证对齐访问D.串行处理到对齐边界，然后进行SIMD对齐访存参考答案：D45. 两个n*n的矩阵相乘，将所有n2个乘

13、法计算划分给不同进程，再将对应某行某列的n个乘法结果累加得到结果矩阵对应元素，这是一种划分_的数据并行。两个n*n的矩阵相乘，将所有n2个乘法计算划分给不同进程，再将对应某行某列的n个乘法结果累加得到结果矩阵对应元素，这是一种划分_的数据并行。A.输入数据B.中间结果C.输出数据D.临时数据参考答案：B46. 使用( )无法直接实现“主线程唤醒4个从线程去执行任务”。A.1个信号量B.障碍C.1个互斥量D.4个互斥量参考答案：C47. 在矩阵乘法之前将第二个矩阵转置，其作用不包括_。A.增大访存空间局部性B.减少运算次数C.优化SIMD访存D.以上皆错参考答案：B48. MPI不包括的通信类别

14、是_。A.点对点通信B.数据传输组通信C.计算和数据传输组通信D.加锁解锁通信参考答案：D49. 从线程检查主线程是否要求它退出应采用_。从线程检查主线程是否要求它退出应采用_。A.pthread_joinB.pthread_cancelC.pthread_testcancelD.pthread_exit参考答案：C50. Pthread不支持( )。A.创建并发执行线程B.同步C.非显式通信D.自动并行化参考答案：D51. 任务依赖图中顶点权重之和表示_。任务依赖图中顶点权重之和表示_。A.任务数B.任务难度C.串行执行时间D.并行执行时间参考答案：C52. 一个SSE寄存器可容纳_个短整型

15、数。一个SSE寄存器可容纳_个短整型数。A.2B.4C.8D.16参考答案：C53. 在使用互斥量之后必须对其进行( )。A.初始化B.加锁C.解锁D.销毁参考答案：D54. 编译器编译OpenMP并行循环时，会自动生成一些代码，其中不包括( )。A.创建和管理线程代码B.循环划分给线程的代码C.找出数据依赖的代码D.线程同步的代码参考答案：C55. 采用MPI主从模型解决矩阵每行排序问题，主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是_。采用MPI主从模型解决矩阵每行排序问题，主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是_。A.更有利于负载均

16、衡B.减少了通信开销C.降低了计算次数D.减少了从进程空闲参考答案：B56. 对双精度浮点计算，AVX最高实现( )路并行。A.2B.4C.8D.16参考答案：B57. 在下列应用中，SIMD最不适合_。在下列应用中，SIMD最不适合_。A.图像处理B.音频处理C.科学计算D.数据库查询参考答案：D58. 采用划分子矩阵技术优化矩阵乘法CUDA程序，子矩阵数组变量声明应加_前缀。采用划分子矩阵技术优化矩阵乘法CUDA程序，子矩阵数组变量声明应加_前缀。A._global_B._device_C._shared_D._private_参考答案：C59. CUDA寄存器是由( )。A.Grid中所有线程共享B.一个Block中所有线程共享C.一个Warp中所有线程共享D.每个线程独享参考答案：D60. 当前CPU性能提升已从依赖时钟频率提升转为更多依赖_。当前CPU性能提升已从依赖时钟频率提升转为更多依赖_。A.多核和众核技术B.突破物理局限C.改善散热D.采用新材料参考答案：A

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

南开大学21秋《并行程序设计》在线作业三满分答案41

最新文档

相关资源

相关搜索