华为云centos7.9按装ambari 2.7.5 hostname 踩坑记录

news/2024/9/22 5:14:29/

华为云centos7.9按装ambari 2.7.5踩坑记录

      • 前言
      • 升华
      • 总结

前言

一般都是废话,本人专业写bug业余运维。起初找了三台不废弃的台式机,开始重装centos系统,开始了HDP3.1.5+Ambari2.7.5安装。
推荐一波好文,一路长绿。跑了一段时间没啥问题,项目开始推线上,兴起冲冲申请费用,开了几台ECS机器8C 16G 嘻嘻嘻 。有了前面的经验,这路子熟

  • 配置好免密
  • 修改hostname
  • 装好mysql
    噼里啪啦一顿傻瓜式的操作。初始化机器以及按装agent这一步报错如下:
  bash: /var/lib/ambari-agent/bin/ambari-agent: Is a directory("INFO 2024-09-19 17:31:34,198 DataCleaner.py:120 - Data cleanup startedINFO 2024-09-19 17:31:34,199 DataCleaner.py:122 - Data cleanup finishedINFO 2024-09-19 17:31:34,199 hostname.py:67 - agent:hostname_script configuration not defined thus read hostname 'localhost.localdomain' using socket.getfqdn().ERROR 2024-09-19 17:31:34,199 main.py:269 - Ambari agent machine hostname (localhost.localdomain) does not match expected ambari server hostname (hdp02). Aborting registration. Please check hostname, hostname -f and /etc/hosts file to confirm your hostname is setup correctlyINFO 2024-09-19 17:31:34,199 ExitHelper.py:57 - Performing cleanup before exiting...INFO 2024-09-19 17:31:34,200 AlertSchedulerHandler.py:159 - [AlertScheduler] Stopped the alert scheduler.INFO 2024-09-19 17:31:34,200 AlertSchedulerHandler.py:159 - [AlertScheduler] Stopped the alert scheduler.INFO 2024-09-19 17:32:44,751 main.py:155 - loglevel=logging.INFOINFO 2024-09-19 17:32:44,754 Hardware.py:68 - Initializing host system information.INFO 2024-09-19 17:32:44,759 Hardware.py:188 - Some mount points were ignored: /dev, /dev/shm, /run, /sys/fs/cgroup, /run/user/0  

Amabri agent 获取hostname为localhost.localdomain 看了一下 cat /etc/hosts,获取的是本地回环地址。
hostname -f cat /etc/hostname 都没啥问题,可能是没看日历,或者少拜一步,在这里插入图片描述重启 ambari-server …

报错依旧,可能操作姿势不太对,下定决心重做系统。在这里插入图片描述这次应该没事了…

报错照旧,本着专业写bug的态度,就找了一下hostname.py 这个文件find / -name 'hostname.py' 获取hostname 方式。调用Ambari 开发者确实厉害,提供了很多便利的地方,获取hostname 可以允许自行配置hostname_script。当然本地的三台机器我也是这么傻瓜式的按装的呢,没配置最后走 socket.getfqdn() 获取全局限定域名,源码如下 :

def hostname(config):global cached_hostnameif cached_hostname is not None:return cached_hostnametry:scriptname = config.get('agent', 'hostname_script')try:osStat = subprocess32.Popen([scriptname], stdout=subprocess32.PIPE, stderr=subprocess32.PIPE)out, err = osStat.communicate()if (0 == osStat.returncode and 0 != len(out.strip())):cached_hostname = out.strip()logger.info("Read hostname '{0}' using agent:hostname_script '{1}'".format(cached_hostname, scriptname))else:logger.warn("Execution of '{0}' failed with exit code {1}. err='{2}'\nout='{3}'".format(scriptname, osStat.returncode, err.strip(), out.strip()))cached_hostname = socket.getfqdn()logger.info("Read hostname '{0}' using socket.getfqdn() as '{1}' failed".format(cached_hostname, scriptname))except:cached_hostname = socket.getfqdn()logger.warn("Unexpected error while retrieving hostname: '{0}', defaulting to socket.getfqdn()".format(sys.exc_info()))logger.info("Read hostname '{0}' using socket.getfqdn().".format(cached_hostname))except:cached_hostname = socket.getfqdn()logger.info("agent:hostname_script configuration not defined thus read hostname '{0}' using socket.getfqdn().".format(cached_hostname))cached_hostname = cached_hostname.lower()return cached_hostname

执行 python 输入 import socket 继续输入print(socket.gethostname())
嗯,是配置过的名字。再次输出print(socket.getfqdn()) 哦豁返回的是 location.localdomain, 果然报错日志没骗我,对比一下本地机器的输入输出 本地机器正常。心里有一万个***在奔腾,然后提了个工单,截图如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

最后说我调用的函数有问题,ambari 确实不是遥遥领先写得坚决不能承认问题 在这里插入图片描述 在这里插入图片描述 。当然也有决绝方式,不能正常返回就退一步,退一步不行再退一步,修改vim /etc/ambari-agent/conf/ambari-agent.ini 指定一下hostname_script 配置,配置如下:

#!/bin/bash  
hostname=$(hostname -f)  # 获取完全限定域名  
echo $hostname

修改 vim /etc/ambari-agent/conf/ambari-agent.ini

[agent]  
hostname_script=/path/to/hostname.sh

继续按装,其他节点有问题,就同步一份。后来仔细想了想,不行肯定还有其他地方用到hostname.py 索性直接把 hostname.py改了算了,简单暴力 直接全局替换 socket.getfqdn() -> socket.gethostname()ambari agent 检查过了 在这里插入图片描述 ,装好了(还有其他乱七八问题) 后到了下班点,下班牛马周末继续。

第二天早起看到华为云的工单,然后继续说我的用的函数有问题在这里插入图片描述在这里插入图片描述

, 我专业写bug的是我想用啥就用啥的吗?这解决问题的态度跟我朋友一样,能解决的问题看心情解决一下,解决不了的就先把提问题的解决掉。这两天刷抖音看到的毒鸡汤也有点多,退步换来的只有得寸进尺。最后小哥也给我打电话解释了,他专业业有限,也问过os那边的同事 确定hostname配置没错。他说那总结了一下是调用函数的问题,继续离谱,然后说客户也有很多其他问题,阿里云没问题切换华为云就这问题那问题的。本人只是为了解决问题,既然他们靠不住,自己再试试,业余运维真心不敢乱改源码,尤其这种组件的,后期爆个雷,真的从程序和人一个能跑选后者了。担心的还主要是万一hadoop中间件内部也有用这种方式获取hostname的。bug写多了有点后怕。

查了一下 配置fqdn的文章。直接不让配置的hostname走回环地址,利用

nmcli general hostname hadoop-0002.com
nmcli networking off 
nmcli networking on

注意 最好在华为云控制台远程登录,因为涉及到网络重启,有可能执行nmcli networking off 链接有会断。

重新试了一下 惊奇的发现socket.getfqdn()正确返回了 在这里插入图片描述 继续重做系统,每台机器都执行一下,最后完美搭建~。

升华

问题是让socket.getfqdn()返回正确的hostname,那么为何不从hosts文件入手或者看一下getfqdn()是如何返回的。推荐一波 看到前面我懵了 在这里插入图片描述 直接把hosts文件里的hostname对应的回环地址那一行删掉不就行了

[root@tms-0002 ~]# cat /etc/hosts
::1	localhost	localhost.localdomain	localhost6	localhost6.localdomain6
127.0.0.1	localhost	localhost.localdomain	localhost4	localhost4.localdomain4
127.0.0.1	tms-0002	tms-0002
192.168.11.90 tms01
192.168.11.138 tms02
192.168.11.190 tms03
[root@tms-0002 ~]# vim /etc/hosts
[root@tms-0002 ~]# python
Python 2.7.5 (default, Nov 14 2023, 16:14:06)
[GCC 4.8.5 20150623 (Red Hat 4.8.5-44)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import socket
>>> socket.getfqdn()
'tms-0002'
>>>

在这里插入图片描述 没错就是127.0.0.1 tms-0002 tms-0002 这一行。HDP装好了,算求不重新搞了~
在这里插入图片描述

总结

回顾一下,其实问题也不是啥大问题,就是因为 华为云初始化机器的时候,hosts文件中多了一行hostname 走回环的配置。前面废话有点多,只是记录一下问题解决的过程。有问题留言第一时间解决~ 在这里插入图片描述 吐槽一下幸亏华为云没喊遥遥领先,也不确定是否真联系了,授权也给他们开了,自由登录服务,最后这答复 问题没解决差点给我解决了。


http://www.ppmy.cn/news/1528701.html

相关文章

VuePress搭建文档网站/个人博客(详细配置)主题配置

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…

《机器人SLAM导航核心技术与实战》第1季:第9章_视觉SLAM系统

视频讲解 【第1季】9.第9章_视觉SLAM系统-视频讲解 【第1季】9.1.第9章_视觉SLAM系统_ORB-SLAM2算法(上)-视频讲解 【第1季】9.1.第9章_视觉SLAM系统_ORB-SLAM2算法(下)-视频讲解 【第1季】9.2.第9章_视觉SLAM系统_LSD-SLAM算法…

极狐GitLab DevSecOps 功能合集(七大安全功能)

极狐GitLab 是 GitLab 在中国的发行版,专门面向中国程序员和企业提供企业级一体化 DevOps 平台,用来帮助用户实现需求管理、源代码托管、CI/CD、安全合规,而且所有的操作都是在一个平台上进行,省事省心省钱。可以一键安装极狐GitL…

【后端】【语言】【python】python常见操作

文章目录 1. List 操作2. JSON 操作3. Dict 操作 下面是分别演示 list、json、dict 操作 1. List 操作 my_list[] # List 操作示例 my_list [1, 2, 3, "apple", True]# 添加元素 my_list.append("new item") # [1, 2, 3, "apple", True, &qu…

[Python]一、Python基础编程(3)

F:\BaiduNetdiskDownload\2023人工智能开发学习路线图\1、人工智能开发入门\1、零基础Python编程 1. 面向对象-其他 1.1 面向对象三大特征 封装 将属性和⽅法书写到类的⾥⾯的操作即为封装 封装可以为属性和⽅法添加私有权限 继承 ⼦类默认继承…

MongoDB解说

MongoDB 是一个流行的开源 NoSQL 数据库,它使用了一种被称为文档存储的数据库模型。 与传统的关系型数据库管理系统(RDBMS)不同,MongoDB 不使用表格来存储数据,而是使用了一种更为灵活的格式——JSON 样式的文档。 这…

《使用 LangChain 进行大模型应用开发》学习笔记(四)

前言 本文是 Harrison Chase (LangChain 创建者)和吴恩达(Andrew Ng)的视频课程《LangChain for LLM Application Development》(使用 LangChain 进行大模型应用开发)的学习笔记。由于原课程为全英文视频课…

vue3+ts+supermap iclient3d for cesium功能集合

会把各项功能链接放在这 1.vue3配置supermap iclient3d for cesium vue3中使用supermap icilent3d for cesium_npm 引入supermapgis-CSDN博客 2.功能 2.1加载天地图,加载地形,夸大地形 supermap icilent3d for cesium加载地形并夸大地形-CSDN博客 …