日语对话构建调查研究

devtools/2024/10/20 10:05:20/

日语对话构建调查研究

一,OKWave(オウケイウェイヴ)网站NLP数据调研

1.OKWave速递

OKWave网址:OKWave
网站印象图
在这里插入图片描述

2.调研结论

(1)可行性:无特殊反爬手段,可直接从OKWave网站抓取数据并构建对话。
(2)构建对话的质量评估:网站提供了多个领域的问答板块,覆盖了从科技,生活,娱乐,到社会和文化,很适合爬取做为对话AI的训练数据。

3.额外网站信息参考补充

(1)数据总量与日新增
数据总量:该社区成立于1999年,已经有超过20年的历史,它是日本最早的在线问答社区之一,也是最大的之一,据调研帖子总数据量:826万条,可直接抓取帖子总量2万条。通过关键字,推荐间接抓取约100万条
日新增:OKWave每日新增帖子的数量在400左右
MAU:每月月活约为1000万。
(2)网站简要介绍
OKWave(オウケイウェイヴ)是一家位于日本的在线问答社区,成立于1999年。它是日本最大的问答社区之一,有超过300万的注册用户,每个月有超过500万的独立访问者。OKWave提供了一个平台,让用户能够提出问题并得到其他用户的回答,同时也可以回答其他用户的问题。该网站提供了多个领域的问答板块,覆盖了从科技,生活,娱乐,到社会和文化等方方面面的主题。

一,教えて!goo(おしえて!グー)网站NLP数据调研

1.教えて!goo速递

教えて!goo网址:教えて!goo
网站印象图
在这里插入图片描述

2.调研结论

(1)可行性:无特殊反爬手段,可直接从教えて!goo网站抓取数据并构建对话。
(2)构建对话的质量评估:网站提供了多个领域的问答板块,覆盖了从科技,生活,娱乐,到社会和文化,很适合爬取做为对话AI的训练数据。

3.额外网站信息参考补充

(1)数据总量与日新增
数据总量:综合日活与成立时间估计总帖子数一千万以上。分析网站可直接抓取帖子数:200万左右。
日新增:每日新增700左右
MAU:2500万人
(2)网站简要介绍
与OKWave一样是日本最大的在线问答社区之一,成立于1999年。它为用户提供了一个平台,让他们可以提出问题并得到其他用户的回答,同时也可以回答其他用户的问题。该网站的内容涵盖了从科技,生活,娱乐,到社会和文化等方方面面的主题。

三,Yahoo!知恵袋网站NLP数据调研

1.Yahoo!知恵袋

Yahoo!知恵袋网址:Yahoo!知恵袋
网站印象图
在这里插入图片描述

2.调研结论

(1)可行性:无特殊反爬手段,可直接从Yahoo!知恵袋网站抓取数据并构建对话。
(2)构建对话的质量评估:网站提供了多个领域的问答板块,覆盖了从科技,生活,娱乐,到社会和文化,很适合爬取做为对话AI的训练数据。

3.额外网站信息参考补充

(1)数据总量与日新增
数据总量:综合日活与成立时间估计总帖子数一千万以上。分析网站可直接抓取帖子数:200万左右。 包括可通过推荐与间接抓取数约100万
日新增:每日新增4k左右
MAU:8400万人
(2)网站简要介绍
雅虎智慧袋(Yahoo!知恵袋,Yahoo! Chiebukuro)是雅虎公司提供的一个在线问答社区,成立于2003年,目前在日本非常受欢迎,是日本最大的问答社区之一。

该网站的内容话题非常广泛,涵盖了从科技,生活,娱乐,到社会和文化等方方面面的主题。用户可以在网站上提问和回答问题,每个问题都可以分配到一个特定的板块,例如健康、教育、美食、旅行等等,方便用户找到自己感兴趣的问题和回答。

四,Quora日本版网站NLP数据调研

1.Quora日本版

Quora日本版网址:Quora日本版
网站印象图
在这里插入图片描述

2.调研结论

(1)可行性:进行小规模的测试,无特殊的反爬手段。只是最后获取评论涉及动态加载,用selenium模拟点击即可。可从Quora日本版网站抓取数据并构建对话。
(2)构建对话的质量评估:网站提供了多个领域的问答板块,覆盖了从科技,生活,娱乐,到社会和文化,很适合爬取做为对话AI的训练数据。

3.额外网站信息参考补充

(1)数据总量与日新增
数据总量:综合日活与成立时间估计总帖子数二百万以上。
日新增:每日新增200左右
MAU:3万人
(2)网站简要介绍
Quora日本版的内容话题非常广泛,涵盖了各个领域的主题。与其他问答社区类似,Quora日本版的内容话题是由用户自主提出的,因此非常多样化和多样性。这种开放性的内容话题可以让用户获得各种不同的意见和建议,吸引了大量用户的参与。


http://www.ppmy.cn/devtools/10265.html

相关文章

CSS3新增特性(一)

目录 一、CSS3 新增选择器 1. 子级选择器 2. 兄弟选择器 相邻兄弟选择器 其他兄弟选择器 3. 结构伪类选择器 ① E:first-child ② E:last-child ③ nth-child(n) n为数字: n为关键字: n为公式: ④ E: firs…

授人以渔 选购篇九:扫地机器人(扫拖机器人)选购要点

文章目录 系列文章自动上下水导航技术:立体激光导航视觉导航,多传感器清洁能力:胶条刷、旋转拖布健康卫生:热水洗拖布、热风烘干智能功能品牌其他 系列文章 授人以渔 选购篇一:信用卡选购要点 授人以渔 选购篇二&…

【机器学习300问】77、什么是梯度消失和梯度爆炸?

一、梯度消失(Vanishing gradients) (1)定义 在训练深度神经网络时,随着误差梯度从输出层向输入层逐层回传,梯度可能因为连乘效应逐渐减小。当使用激活函数的导数的最大值小于1时,深度网络中越…

设计模式之访问者模式(上)

访问者模式 1)概述 1.概念 访问者模式包含访问者和被访问元素两个主要组成部分。 处方单中的各种药品信息就是被访问的元素,而划价人员和药房工作人员就是访问者,被访问的元素通常具有不同的类型,且不同的访问者可以对它们进行…

vi, vim,data,wc,系统常用命令-读书笔记(十)

vi 文本编辑器 基本上 vi 共分为三种模式,分别是“一般指令模式”、“编辑模式”与“命令行命令模式”。这三种模式的作用分别是: 一般指令模式(command mode)以 vi 打开一个文件就直接进入一般指令模式了(这是默认的…

Java后端中如何随意接收参数

目录 一、参数名相同 二、参数名不同,使用RequestParam注解 大概访问流程是:先访问test控制器,test控制器跳转到index页面(此时index页面收到了test控制器传来的数据),然后在index页面跳转到t5控制器&…

ChatGPT引领:打造独具魅力的论文

ChatGPT无限次数:点击直达 ChatGPT引领:打造独具魅力的论文 在数字化时代,人工智能技术的快速发展不仅改变了我们生活的方方面面,还在学术研究领域展现出更广阔的可能性。其中,自然语言生成模型ChatGPT凭借其强大的生成能力和智能…

微信小程序 如何在组件中实现 上拉加载下一页和下拉触底

通过在父页面中使用selectComponent来调用子组件的方法来实现 1、在component中配置好方法 子页面homePage/index/index.js // homePage/index/index.js var total 0 var pageNo 1 const pageSize 20 Component({/*** 组件的属性列表*/properties: {},lifetimes: {create…