开始使用 RAPIDS
cuDF 是一个 GPU DataFrame 库,它提供类似 pandas 的 API 来加载、过滤和操作数据。
适用于 Apache Spark 的 RAPIDS 加速器为Apache Spark提供了一组插件,这些插件利用 GPU 通过RAPIDS库加速处理。
cuGraph 是一个 GPU 加速的图形分析库,包括对属性图、远程( 图形即服务)操作和图形神经网络的支持。
- Python 中 GPU 加速图形分析初学者指南(博客)
- cuGraph 文档
- 备忘单
- 使用 cuGraph 进行图形分析(Notebook)
- 加速端到端数据科学工作流程(DLI 课程)
- 深入探讨用于加速数据科学和数据工程的 RAPIDS (网络研讨会)
cuML 是一套库,用于实现机器学习算法和数学原语函数,与其他 RAPIDS 项目共享兼容的 API,并在大多数情况下与 scikit-learn 的 API 相匹配。
了解当今 RAPIDS 的部署方式
AT&T
AT&T 在 GPU 集群上应用了适用于 Apache Spark 的 NVIDIA RAPIDS 加速器,用于数据到 AI 管道中的提取、转换和加载 (ETL) 以及特征工程阶段,与基于 CPU 的 Spark 相比,提高了性能、降低了成本并提高了简单性集群和 Databricks 的 Photon 引擎。
阅读博客
NASA
NVIDIA 和 NASA 一直在使用 RAPIDS,通过结合表面监测数据和 NASA GEOS-CF 模型生成的近实时模型数据,来监测 COVID-19 大流行期间的空气质量。他们使用 XGBoost 来检测和量化空气污染异常,并建立一个偏差校正模型,将模型的二氧化氮预测与观测结果联系起来。
阅读博客:第 1 部分阅读博客:第 2 部分
TCS Optumera
TCS Optumera 使用 Spark+Rapids 加速其需求预测管道,以生成粒度级别的准确预测,从而使数据管道加速 6 倍,模型训练性能提升 170 倍。
观看点播会议
金融服务
平安、CAPE Analytics、Applica、蒙特利尔银行、第一资本、Square 和 Intuit 正在使用 NVIDIA GPU 驱动的 AI 来改善客户服务、防止欺诈、简化流程并加速增长,从而实现更快的索赔处理、更准确的承保决策、消除手动错误、改进运行时间以及更好的产品设计和选择。
阅读博客
IRS 和 Cloudera
IRS 团队使用 Cloudera Data Platform 和由 NVIDIA 加速的 Spark 3.0,在大型数据集上实现了 20 倍的性能提升,以发现欺诈行为,使他们能够运行以前不可能完成的作业并加速当前的工作。他们计划将其应用到加速成熟的人工智能推理工作的下一步。
阅读博客