从0攒一个分布大数据/人工智能/数据库 处理引擎

news/2024/11/2 7:37:03/

以下各组件部署方式:嵌入模式 vs 独立服务模式

组件选型:

  1. 分布式网络通信: brpc, zmq ...
  2. 分布式高可靠存储用于存元信息: zk, etcd, braft
  3. 分布式状态保存用于存储数据: memory/disk storage(shuffle,sort): rocksdb+partition_manage
  4. 单机计算引擎: Graph Vacanoo Pipeline: tensorflow, flink, spark, (database) duckdb, postgresql
  5. 数据结构: rdd, DataSet, DataFrame....
  6. UDF,UDAF, UDTF, OPS扩展
  7. DAG 管理: TaskFlow
  8. 资源管理和分配: yarn
  9. 任务管理: submit job, job status track
  10. Failover: checkpoint 保存与恢复
  11. Monitor/Logs:监控日志状态跟踪

http://www.ppmy.cn/news/1543804.html

相关文章

ICPC区域赛成都站【赛后回顾+总结】

传送门 前言赛后总结赛后回顾赛后感悟 前言 首先,这是本人本赛季第一场XCPC区域赛,也是本人算竞生涯中第一场XCPC区域赛(之前只打过邀请赛和省赛)。 赛后总结 然后赛后总结一下:我队天崩开局,我队出师不利…

一文速通C++17 std::any

std::any 概念 值类型 一般来说,C是一门类型绑定和类型安全的语言。 值对象:被声明为确定的类型,并且不能改变自身的类型。类型:定义了所有可能的操作、也定义了对象的行为。 std::any是一种在保证类型安全的基础上还能改变自…

精准帮扶:SpringBoot扶贫管理系统

摘要 随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成熟。本文介绍了精准扶贫管理系统的开发全过程。通过分析精准扶贫管理系统管理的不足,创建了一个计算机管理精准扶贫管理系统的方案。文章介绍了精准扶贫管理系统的系…

Python中的PDF处理工具:PyPDF2和ReportLab使用指南

Python中的PDF处理工具:PyPDF2和ReportLab使用指南 在日常工作和项目中,PDF 文件处理是个常见需求,不论是合并报告、加密文档、填充表单,还是生成发票。Python 中有许多用于操作 PDF 文件的库,其中 PyPDF2 和 ReportL…

API网关 - JWT认证 ; 原理概述与具体实践样例

API网关主要提供的能力,就是协议转换,安全,限流等能力。 本文主要是分享 如何基于API网关实现 JWT 认证 。 包含了JWT认证的流程,原理,与具体的配置样例 API网关认证的重要性 在现代Web应用和微服务架构中&#x…

【论文速读】| RED QUEEN: 保护大语言模型免受隐蔽多轮越狱攻击

基本信息 原文标题:RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking 原文作者:Yifan Jiang, Kriti Aggarwal, Tanmay Laud, Kashif Munir, Jay Pujara, Subhabrata Mukherjee 作者单位:Hippocr…

设计模式概述与优化口诀

设计模式概述与优化口诀 设计模式是一种在软件开发中为解决常见问题而总结出的可复用解决方案。它们不是具体的代码,而是描述了一套在特定上下文中如何解决某类问题的最佳实践和思维方式。设计模式通常被分为三大类: 创建型模式:这些模式关…

git入门教程15:git扩展

一、Git扩展概述 Git的扩展性主要体现在它允许用户通过插件、钩子脚本、自定义命令和自定义属性等方式来定制和扩展其功能。这些扩展机制使得Git能够更好地适应不同用户的需求和工作流程。 二、Git插件体系 Git的插件体系是其可扩展性的核心。Git插件可以分为两类&#xff1…