CCF-CSP认证考试 202403-2 相似度计算 100分题解

server/2024/11/25 18:28:52/

更多 CSP 认证考试题目题解可以前往:CSP-CCF 认证考试真题题解


原题链接: 202403-2 相似度计算

时间限制: 1.0 秒
空间限制: 512 MiB

题目背景

两个集合的 Jaccard 相似度定义为: S i m ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ Sim(A, B) = \frac{|A \cap B|}{|A \cup B|} Sim(A,B)=ABAB​即交集的大小除以并集的大小。当集合 A A A B B B 完全相同时, S i m ( A , B ) = 1 Sim(A, B) = 1 Sim(A,B)=1 取得最大值;当二者交集为空时, S i m ( A , B ) = 0 Sim(A, B) = 0 Sim(A,B)=0 取得最小值。

题目描述

除了进行简单的词频统计,小 P 还希望使用 Jaccard 相似度来评估两篇文章的相似性。 具体来说,每篇文章均由若干个英文单词组成,且英文单词仅包含“大小写英文字母”。 对于给定的两篇文章,小 P 首先需要提取出两者的单词集合 A A A B B B,即去掉各自重复的单词。 然后计算出:

  • ∣ A ∩ B ∣ |A \cap B| AB,即有多少个不同的单词同时出现在两篇文章中;
  • ∣ A ∪ B ∣ |A \cup B| AB,即两篇文章一共包含了多少个不同的单词。

最后再将两者相除即可算出相似度。 需要注意,在整个计算过程中应当忽略英文字母大小写的区别,比如 theTheTHE 三者都应被视作同一个单词。

试编写程序帮助小 P 完成前两步,计算出 ∣ A ∩ B ∣ |A \cap B| AB ∣ A ∪ B ∣ |A \cup B| AB;小 P 将亲自完成最后一步的除法运算。

输入格式

从标准输入读入数据。

输入共三行。

输入的第一行包含两个正整数 n n n m m m,分别表示两篇文章的单词个数。

第二行包含空格分隔的 n n n 个单词,表示第一篇文章;

第三行包含空格分隔的 m m m 个单词,表示第二篇文章。

输出格式

输出到标准输出。

输出共两行。

第一行输出一个整数 ∣ A ∩ B ∣ |A \cap B| AB,即有多少个不同的单词同时出现在两篇文章中;

第二行输出一个整数 ∣ A ∪ B ∣ |A \cup B| AB,即两篇文章一共包含了多少个不同的单词。

样例1输入

3 2
The tHe thE
the THE

样例1输出

1
1

样例1解释

A = B = A ∩ B = A ∪ B = A = B = A \cap B = A \cup B = A=B=AB=AB= {the}

样例2输入

9 7
Par les soirs bleus dete jirai dans les sentiers
PICOTE PAR LES BLES FOULER LHERBE MENUE

样例2输出

2
13

样例2解释

A = A = A= {bleus, dans, dete, jirai, les, par, sentiers, soirs} ∣ A ∣ = 8 |A| = 8 A=8

B = B = B= {bles, fouler, les, lherbe, menue, par, picote} ∣ B ∣ = 7 |B| = 7 B=7

A ∩ B = A \cap B = AB= {les, par} ∣ A ∩ B ∣ = 2 |A \cap B| = 2 AB=2

样例3输入

15 15
Thou that art now the worlds fresh ornament And only herald to the gaudy spring
Shall I compare thee to a summers day Thou art more lovely and more temperate

样例3输出

4
24

子任务

80 % 80\% 80% 的测试数据满足: n , m ≤ 100 n, m \leq 100 n,m100 且所有字母均为小写;

全部的测试数据满足: n , m ≤ 1 0 4 n, m \leq 10^{4} n,m104 且每个单词最多包含 10 10 10 个字母。


题解

将两篇文章的单词中的大写转小写后,分别放入两个 std::set 中,然后使用 std::set_intersectionset_union 分别求出两个集合的交集和并集,最后输出交集和并集的大小即可。

时间复杂度: O ( ( n + m ) log ⁡ ( n + m ) ) \mathcal{O}((n+m)\log(n+m)) O((n+m)log(n+m))

参考代码

/*Created by Pujx on 2024/5/8.
*/
#pragma GCC optimize(2, 3, "Ofast", "inline")
#include <bits/stdc++.h>
using namespace std;
#define endl '\n'
//#define int long long
//#define double long double
using i64 = long long;
using ui64 = unsigned long long;
using i128 = __int128;
#define inf (int)0x3f3f3f3f3f3f3f3f
#define INF 0x3f3f3f3f3f3f3f3f
#define yn(x) cout << (x ? "yes" : "no") << endl
#define Yn(x) cout << (x ? "Yes" : "No") << endl
#define YN(x) cout << (x ? "YES" : "NO") << endl
#define mem(x, i) memset(x, i, sizeof(x))
#define cinarr(a, n) for (int _ = 1; _ <= n; _++) cin >> a[_]
#define cinstl(a) for (auto& _ : a) cin >> _
#define coutarr(a, n) for (int _ = 1; _ <= n; _++) cout << a[_] << " \n"[_ == n]
#define coutstl(a) for (const auto& _ : a) cout << _ << ' '; cout << endl
#define all(x) (x).begin(), (x).end()
#define md(x) (((x) % mod + mod) % mod)
#define ls (s << 1)
#define rs (s << 1 | 1)
#define ft first
#define se second
#define pii pair<int, int>
#ifdef DEBUG#include "debug.h"
#else#define dbg(...) void(0)
#endifconst int N = 2e5 + 5;
//const int M = 1e5 + 5;
const int mod = 998244353;
//const int mod = 1e9 + 7;
//template <typename T> T ksm(T a, i64 b) { T ans = 1; for (; b; a = 1ll * a * a, b >>= 1) if (b & 1) ans = 1ll * ans * a; return ans; }
//template <typename T> T ksm(T a, i64 b, T m = mod) { T ans = 1; for (; b; a = 1ll * a * a % m, b >>= 1) if (b & 1) ans = 1ll * ans * a % m; return ans; }int a[N];
int n, m, t, k, q;void work() {cin >> n >> m;set<string> s1, s2, inter, uni;auto readString = [&] () -> string {string s; cin >> s;for (auto& ch : s)if (ch >= 'A' && ch <= 'Z')ch += 32;return s;};for (int i = 1; i <= n; i++) s1.insert(readString());for (int i = 1; i <= m; i++) s2.insert(readString());set_intersection(all(s1), all(s2), inserter(inter, inter.begin()));set_union(all(s1), all(s2), inserter(uni, uni.begin()));cout << inter.size() << endl << uni.size() << endl;
}signed main() {
#ifdef LOCALfreopen("C:\\Users\\admin\\CLionProjects\\Practice\\data.in", "r", stdin);freopen("C:\\Users\\admin\\CLionProjects\\Practice\\data.out", "w", stdout);
#endifios::sync_with_stdio(false);cin.tie(0);cout.tie(0);int Case = 1;//cin >> Case;while (Case--) work();return 0;
}
/*_____   _   _       _  __    __|  _  \ | | | |     | | \ \  / /| |_| | | | | |     | |  \ \/ /|  ___/ | | | |  _  | |   }  {| |     | |_| | | |_| |  / /\ \|_|     \_____/ \_____/ /_/  \_\
*/

关于代码的亿点点说明:

  1. 代码的主体部分位于 void work() 函数中,另外会有部分变量申明、结构体定义、函数定义在上方。
  2. #pragma ... 是用来开启 O2、O3 等优化加快代码速度。
  3. 中间一大堆 #define ... 是我习惯上的一些宏定义,用来加快代码编写的速度。
  4. "debug.h" 头文件是我用于调试输出的代码,没有这个头文件也可以正常运行(前提是没定义 DEBUG 宏),在程序中如果看到 dbg(...) 是我中途调试的输出的语句,可能没删干净,但是没有提交上去没有任何影响。
  5. ios::sync_with_stdio(false); cin.tie(0); cout.tie(0); 这三句话是用于解除流同步,加快输入 cin 输出 cout 速度(这个输入输出流的速度很慢)。在小数据量无所谓,但是在比较大的读入时建议加这句话,避免读入输出超时。如果记不下来可以换用 scanfprintf,但使用了这句话后,cinscanfcoutprintf 不能混用。
  6. main 函数和 work 函数分开写纯属个人习惯,主要是为了多组数据。

http://www.ppmy.cn/server/38331.html

相关文章

面试经典150题——判断子序列

面试经典150题 day26 题目来源我的题解方法一 双指针方法二 动态规划 题目来源 力扣每日一题&#xff1b;题序&#xff1a;392 我的题解 方法一 双指针 分别使用一个指针控制两个字符串的遍历&#xff0c;当两个指针的位置的字符相同时&#xff0c;同时移动两个指针&#xf…

智慧旅游引领旅游行业创新发展:借助智能科技的力量,实现旅游资源的优化配置和高效利用,推动旅游行业的转型升级和可持续发展

目录 一、引言 二、智慧旅游的定义与特点 1、信息化程度高 2、智能化服务丰富 3、互动性强 4、个性化服务突出 5、可持续性发展 三、智慧旅游在旅游行业创新发展中的作用 &#xff08;一&#xff09;优化旅游资源配置 &#xff08;二&#xff09;提升旅游服务质量 &…

小猪APP分发:重塑应用分发市场的创新力量

在移动互联网蓬勃发展的今天&#xff0c;应用分发平台作为连接开发者与用户的桥梁&#xff0c;扮演着至关重要的角色。然而&#xff0c;随着市场的饱和&#xff0c;如何在众多平台中脱颖而出&#xff0c;为开发者提供更宽广的舞台&#xff0c;同时确保用户能够便捷、安全地获取…

Golang——IO操作

1. 输入输出的底层原理 终端其实是一个文件(Linux下一切皆文件)&#xff0c;相关实例如下&#xff1a; os.Stdin&#xff1a;标准输出的文件实例&#xff0c;类型为*Fileos.Stdout&#xff1a;标准输入的文件实例&#xff0c;类型为*Fileos.Stderr&#xff1a;标准错误输出的文…

批量图片重命名及汇总

又一堆图片文件需要处理... 源文件分布&#xff1a; 有N个文件夹&#xff0c;每个文件夹下又有M个子文件夹&#xff0c;每个子文件夹下有X张图片。 例如文件夹A下有子文件夹A1,A2,A3&#xff0c;子文件夹A1下有图片a-1,a-2,a-3...... 处理目标&#xff1a; 1、将所有图片汇…

Linux-信号保存

1. 概念 进程执行信号的处理动作&#xff0c;称为 信号递达&#xff08;Delivery&#xff09; 信号从产生到递达之间的状态&#xff0c;称为 信号未决&#xff08;Pending&#xff09; 进程可以选择 阻塞&#xff08;Block&#xff09;某个信号 过程&#xff1a; 信号产生 ——…

盘点一下4种常见的微信的广告类型,在微信上打广告要花多少钱?

微信是一款社交媒体应用&#xff0c;集Facebook、Instagram和Snapchat的功能于一身。该应用拥有超过12亿的月活跃用户&#xff0c;其中约7亿为日活跃用户。由于其在中国网民中的成功和广泛的通信工具&#xff0c;微信是推广您业务的绝佳平台。 在这篇博客文章中&#xff0c;我…

qt day 3

优化登录框&#xff0c;点击登录按钮&#xff0c;如果账号和密码匹配&#xff0c;则弹出 信息对话框 给出提示信息“登录成功”&#xff0c;并给出一个 ok 按钮&#xff0c;当用户点击 ok 后&#xff0c;关闭当前界面&#xff0c;跳转到另一个界面&#xff1b;如果账号和密码不…