大数据开发--1.1大数据概论

embedded/2024/10/19 6:58:32/

目录

一.大数据的概念

什么是大数据

二. 大数据的特点

三. 大数据应用场景

四. 大数据分析业务步骤

大数据分析的业务流程:

五.大数据职业规划

职业方向

岗位技术要求

六. 大数据学习路线


一.大数据的概念

什么是大数据

  • 数据
    世界的本质是数据
            --大数据研究专家维克托·迈尔-世恩伯格博士
  • 大数据定义
         大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,因此需要新处理模式,该处理模式就是大数据
  • 大数据处理的数据量有多大?
    (2的10次方)
    目前的大数据应用,数据量主要集中在PB/EB级别
  • 大数据解决什么问题?
         海量数据存储:数据分析的前提是有数据,数据存储的目的是支撑数据分析。究竟怎么去存储庞大的数据量,是开展数据分析的企业在当下面临的一个问题。
         海量数据运算:当解决了海量数据的存储问题,接下来面临的海量数据的计算问题也是比较让人头疼,因为企业不仅追求可以计算,还会追求计算的速度、效率。

二. 大数据的特点

  • 大数据的特点可以使用5个字来概括:

                               结构化:文字、数字。
                               非结构化:图片、音频、视频。
                               半结构化:json。

三. 大数据应用场景

  • 行业领域

四. 大数据分析业务步骤

  • 大数据的应用场景--大数据让借贷更放心
          在金融行业中,以借贷款为例。在贷款前,贷款借出方会先利用大数据对借款人进行贷前审核,以此来保障贷后的还款率。
         借出方从各个渠道合法收集借款人的标签信息,如学历,职业,薪资状况,历史借还款情况等。海量数据被放入反欺诈模型,还款能力模型,身份验证模型等数个中做训练,最终得出是否通过本次贷款申请,贷款的额度,贷款人的还款意愿等评估信息。
         借款人数据收集的越多,标签维度越细,数据越真实,则审核效果越全面。
         (逻辑回归、人物画像)
  • 大数据的应用场景-大数据让广告营销更高效
         广告作为互联网行业最常见的变现手段之一,曾几何时,你会发现日常生活中看到的广告居然那么懂你。
         在广告的投放期间,通过大数据手段大量的整合、分析数据,包括用户的浏览习惯、消费行为、浏览记录、对广告的点击数量等,构建全面的用户画像,保证广告定向投放。
         在广告投放的中后期,通过实时的数据反馈,结合用户所处地域,时间的变化,动态优化广告素材,让同一个用户在不同的场景下享受不一样的广告服务。

                落地的产品,但是大数据不做这些,算法团队来做个性化推荐,大数据杀熟

        通过型的算法有:spark(MLlib),贝叶斯,效果非常的差。所以要自己写算法。

  • 大数据的应用场景--大数据让新媒体更懂你
         短视频平台会通过大数据平台,分析用户的喜好,根据用户的喜好给用户推荐小视频。

         头条平台会根据你的浏览历史推荐你喜欢或者关注的内容。

大数据分析的业务流程:

五.大数据职业规划

  • 大数据开发工程师
  • Hadoop开发工程师
  • Spark开发工程师
  • 实时计算开发工程师
    flink+kafka,sparksreaming+kafka
  • 数据仓库工程师
    Hive脚本开发(Hive开发工程师)
  • ETL开发工程师
  • BI开发工程师
    数据分析,Python+fineBI,tableau
  • 数据挖掘工程师
    算法
  • 数据架构师
    5年起步

职业方向

岗位技术要求

六. 大数据学习路线

  1. Linux系统
    大数据的所有组件都是在Linux环境下搭建的)
  2. 编程语言
  3. 大数据框架
    (核心框架:Hadoop、Hive、Spark、Kakfa、Hbase)

    大数据工具:
         zookeeper
         Hadoop(MapReduce、hdfs)
         Hive
         azkaban:调度工具
         impala
         HBASE
         Phoenix
         Redis
         elasticsearch
         logstash
         kibana
         hue
         oozie
         spark
         flink
         kafka
         clickhouse
         DS

http://www.ppmy.cn/embedded/121156.html

相关文章

LLM | Ollama WebUI 安装使用(pip 版)

Open WebUI (Formerly Ollama WebUI) 也可以通过 docker 来安装使用 1. 详细步骤 1.1 安装 Open WebUI # 官方建议使用 python3.11(2024.09.27),conda 的使用参考其他文章 conda create -n open-webui python3.11 conda activate open-web…

C# 无边框窗体,加阴影效果、多组件拖动、改变大小等功能完美实现优化版效果体验

一、预览效果 国庆节第一天,祝祖国繁荣昌盛! 1.1 效果图 (WinForm无边框窗体,F11可全屏) 拖动窗体时半透明效果(拖动时参考窗体后面释放位置) 说明:本功能的实现基于网友的原型完善而来,更多代码可以参考他的文章 h

pytest框架

pytest测试框架 单元测试框架定义:针对软件开发最小的单元(函数,方法)进行正确性位置测试 单元测试框架:java(junit,testing)python(unittest,pytest&#…

如何在 Windows PC 或笔记本电脑上恢复未保存的 Word 文档

辛苦工作成果消失得无影无踪可能是任何人最可怕的噩梦,尤其是如果这是一篇长篇论文或项目报告。此问题可能是由于 Windows PC 或笔记本电脑上未保存的 Word 文档造成的。不过,不要惊慌;您仍然有机会在 Windows 机器上恢复未保存的 Word 文档。…

php email功能实现:详细步骤与配置技巧?

php email发送功能详细教程?如何使用php email服务? 无论是用户注册、密码重置,还是订单确认,电子邮件都是与用户沟通的重要手段。AokSend将详细介绍如何实现php email功能,并提供一些配置技巧,帮助你更好…

交互式低延迟音频解码器

想象一下你和朋友们正在一起玩一款激烈的在线游戏,屏幕上满是五彩斑斓的战斗场面。你们不仅在用眼睛捕捉每一个细节,还通过耳机紧密交流,协调进攻和防守。此时,交互式低延迟音频解码器就像一位隐形的音频魔法师,确保你…

设计模式、系统设计 record part02

软件设计模式: 1.应对重复发生的问题 2.解决方案 3.可以反复使用 1.本质是面向对象 2.优点很多 1.创建型-创建和使用分离 2.结构型-组合 3.行为型-协作 571123种模式 UML-统一建模语言-Unified Modeling Language 1.可视化,图形化 2.各种图(9…

FreeRTOS篇6:任务综合小实验

一.实验需求 创建 4 个任务:taskLED1,taskLED2,taskKEY1,taskKEY2,任务要求如下: taskLED1:间隔 500ms 闪烁 LED1; taskLED2:间隔 1000ms 闪烁 LED2; tas…