「美团 CodeM 初赛 Round B」合并字符串的价值

0
樊玥燚 @ 2025-10-30 20:42:50
一、题意理解

我们有两个字符串 $a$ 和 $b$ ，长度分别为 $|a|$ 和 $|b|$ 。

我们要构造一个字符串 $c$ ，长度为 $|a|+|b|$ ，并且 $c$ 可以拆成两个不相交的子序列，一个等于 $a$ ，一个等于 $b$ 。

换句话说， $c$ 是 $a$ 和 $b$ 的 交错（interleaving），保持 $a$ 和 $b$ 各自的字符顺序。

然后定义 $c$ 的价值：
- 把 $c$ 切成两段 $u = c[1..k]$ 和 $v = c[k+1..n]$ （ $1 \le k \le n-1$ ）
- 允许将 $u$ 和 $v$ 的字符各自重新排列
- 重新排列后， $u$ 和 $v$ 的最长公共前缀（LCP）长度记为 $L_k$
- 价值 = $\max_{1 \le k \le n-1} L_k$
我们要在所有可能的 $c$ 中，找到最大的价值。

二、价值计算的关键

对于固定的 $c$ ，考虑某个分界点 $k$ ， $u$ 长度 $k$ ， $v$ 长度 $n-k$ 。

我们可以任意重排 $u$ 和 $v$ ，使得它们的前缀尽可能相同。

设 $freqU[x]$ 表示 $u$ 中字符 $x$ 的数量， $freqV[x]$ 表示 $v$ 中字符 $x$ 的数量。

那么 $u$ 和 $v$ 能匹配的前缀长度最多是多少？

1. 匹配分析

假设我们想匹配长度为 $t$ 的前缀，那么需要：
- 对每个位置 $i \in [1,t]$ ， $u$ 和 $v$ 在该位置的字符相同。
- 由于可以任意排列，我们只需要 $u$ 和 $v$ 中每种字符的总数足够分配。
实际上，最大匹配长度等于： $ L_k = \sum_{x \in \{\text{A,C,G,T}\}} \min(freqU[x], freqV[x]) $ 因为我们可以把每种字符尽可能配对，配对的数量就是 $\min(freqU[x], freqV[x])$ ，这些配对的字符可以放在前缀中。

2. 为什么这是上界且可达？
- 上界：每种字符最多能匹配 $\min(freqU[x], freqV[x])$ 次。
- 可达：我们可以把 $u$ 和 $v$ 都按某种顺序排列，让这些匹配的字符出现在前缀，不匹配的字符放在后面。
所以： $ \text{价值}(c) = \max_{1 \le k \le n-1} \sum_{x} \min(freqU[x], freqV[x]) $ 其中 $freqU$ 是 $c[1..k]$ 的字符频率， $freqV$ 是 $c[k+1..n]$ 的字符频率。

三、问题转化

设 $n = |a|+|b|$ 。

对于固定的 $c$ ，设 $F[k] = \sum_{x} \min(freqU[x], freqV[x])$ 。

我们要最大化 $\max_k F[k]$ 。

1. 用 $a$ 和 $b$ 的频率表示

设 $total[x] = freqA[x] + freqB[x]$ ，其中 $freqA[x]$ 是 $a$ 中字符 $x$ 的数量， $freqB[x]$ 是 $b$ 中字符 $x$ 的数量。

对于某个分界点 $k$ ，假设 $u$ 中有 $p_x$ 个来自 $a$ 的字符 $x$ ， $q_x$ 个来自 $b$ 的字符 $x$ ，则： $freqU[x] = p_x + q_x$ $ freqV[x] = (freqA[x] - p_x) + (freqB[x] - q_x) = total[x] - (p_x + q_x) $

所以： $ F[k] = \sum_x \min(p_x + q_x,\ total[x] - (p_x + q_x)) $

2. 关键观察

令 $t_x = p_x + q_x$ 表示 $u$ 中字符 $x$ 的数量。

那么： $F[k] = \sum_x \min(t_x,\ total[x] - t_x)$

并且 $t_x$ 满足：
- $0 \le t_x \le total[x]$
- $\sum_x t_x = k$ （因为 $u$ 长度 $k$ ）
四、最大化 $F[k]$

对于固定的 $t_x$ ， $\min(t_x, total[x] - t_x)$ 在 $t_x = \lfloor total[x]/2 \rfloor$ 时取最大值 $\lfloor total[x]/2 \rfloor$ 。

所以： $F[k] \le \sum_x \lfloor total[x]/2 \rfloor$ 这个上界与 $k$ 无关。

1. 可达性

我们能否选择 $t_x$ 使得：
- $t_x = \lfloor total[x]/2 \rfloor$ 对所有 $x$ 成立？
- 并且 $\sum_x t_x = k$ 对某个 $k$ 成立？
如果 $\sum_x \lfloor total[x]/2 \rfloor$ 是整数，并且存在某个 $k$ 等于它，那么上界可达。

但 $k$ 必须介于 $1$ 和 $n-1$ 之间。

实际上， $F[k]$ 的最大值就是： $ \min\left( \sum_x \lfloor total[x]/2 \rfloor,\ k,\ n-k \right) $ 的某种形式？我们需要更精确。

2. 更精确的最大值

设 $M = \sum_x \lfloor total[x]/2 \rfloor$ 。

对于给定的 $k$ ， $F[k] \le M$ 且 $F[k] \le k$ 且 $F[k] \le n-k$ 。

所以： $ \max_k F[k] \le \min\left( M, \lfloor n/2 \rfloor \right) $ 因为 $k$ 和 $n-k$ 至少有一个 $\le \lfloor n/2 \rfloor$ ，而 $F[k] \le \min(k, n-k)$ 。

结论： $ \text{最大价值} = \min\left( \sum_{x \in \{A,C,G,T\}} \left\lfloor \frac{\text{freq}_a[x] + \text{freq}_b[x]}{2} \right\rfloor,\ \left\lfloor \frac{|a|+|b|}{2} \right\rfloor \right) $

五、为什么与 $c$ 的排列无关？

因为 $F[k]$ 只依赖于 $u$ 和 $v$ 的字符频率，而我们可以通过选择 $c$ 和分界点 $k$ 来任意分配字符到 $u$ 和 $v$ （只要保持 $a$ 和 $b$ 各自的顺序），所以我们可以让 $t_x$ 尽可能接近 $\lfloor total[x]/2 \rfloor$ ，同时满足 $\sum t_x = k$ 对某个 $k$ 成立。

因此最大价值就是上面的公式。

六、样例验证

样例1： $a = \texttt{ACGT}$ , $b = \texttt{ACGT}$
- $total = [A:2, C:2, G:2, T:2]$
- $\lfloor 2/2 \rfloor = 1$ 每种
- $M = 1+1+1+1 = 4$
- $n = 8$ , $\lfloor n/2 \rfloor = 4$
- 答案 = $\min(4,4) = 4$ ✅
样例2： $a = \texttt{AACCGGTT}$ , $b = \texttt{ACACAGAT}$
- $total$ :
  
  A: $a$ 中 2 个 + $b$ 中 4 个 = 6 → $\lfloor 6/2 \rfloor = 3$
  
  C: $a$ 中 2 个 + $b$ 中 2 个 = 4 → $\lfloor 4/2 \rfloor = 2$
  
  G: $a$ 中 2 个 + $b$ 中 1 个 = 3 → $\lfloor 3/2 \rfloor = 1$
  
  T: $a$ 中 2 个 + $b$ 中 1 个 = 3 → $\lfloor 3/2 \rfloor = 1$
- $M = 3+2+1+1 = 7$
- $n = 8+8=16$ , $\lfloor 16/2 \rfloor = 8$
- 答案 = $\min(7,8) = 7$ ✅
七、算法步骤
1. 统计 $a$ 和 $b$ 中 A,C,G,T 的数量。
2. 计算 $M = \sum_{x \in \{A,C,G,T\}} \lfloor (countA[x] + countB[x]) / 2 \rfloor$。
3. 计算 $n = |a|+|b|$ 。
4. 输出 $\min(M, \lfloor n/2 \rfloor)$ 。
复杂度 $O(|a|+|b|)$ 。

八、代码实现（C++）
```
#include <cstring>
#include <string>
#include <stdio.h>
#include <cmath>
#include <algorithm>
#include <iostream>
#include <stack>
#include <queue>
#include <limits.h>
#include <list>
#include <set>
#include <map>
#include <unordered_map>
#include <bitset>
#include <random>
#include <vector>
using namespace std;
#define INF 0x3f3f3f3f3f3f3f3fll
#define IINF 0x3f3f3f3f
#define DINF 100000
#define ll long long
#define sc scanf
#define pr printf
#define v1 first
#define v2 second
#define lowbit(x) ((x)&(-(x)))
const int N = 1e5 + 5;
int mn[N];
namespace seg {
#define lson k*2,l,mid
#define rson k*2+1,mid+1,r
#define mid ((l+r)>>1)
int val[N << 2], lazy[N << 2];
void push_up(int k) {
    val[k] = max(val[k * 2], val[k * 2 + 1]);
}
void push_tg(int k, int va) {
    val[k] += va;
    lazy[k] += va;
}
void push_down(int k) {
    if (!lazy[k])
        return;

    push_tg(k * 2, lazy[k]);
    push_tg(k * 2 + 1, lazy[k]);
    lazy[k] = 0;
}
void build(int k, int l, int r) {
    lazy[k] = 0;

    if (l == r) {
        val[k] = mn[l];
        return;
    }

    build(lson);
    build(rson);
    push_up(k);
}
void modify(int k, int l, int r, const int lbor, const int rbor, int va) {
    if (lbor > rbor)
        return;

    if (lbor <= l && r <= rbor) {
        push_tg(k, va);
        return;
    }

    push_down(k);

    if (mid >= lbor)
        modify(lson, lbor, rbor, va);

    if (mid < rbor)
        modify(rson, lbor, rbor, va);

    push_up(k);
}
void print(int k, int l, int r) {
    if (l == r) {
        cout << val[k] << " ";
        return;
    }

    push_down(k);
    print(lson);
    print(rson);

    if (k == 1)
        cout << endl;
}
#undef lson
#undef rson
#undef mid
}
char ca[N], cb[N];
int a[N], b[N];
int sum[4];
int pre[N][4];
int pt[4][2];
int cnt[4];
int tran(char c) {
    if (c == 'A')
        return 0;

    if (c == 'C')
        return 1;

    if (c == 'G')
        return 2;

    return 3;
}
int main() {
    int t;
    sc("%d", &t);

    while (t--) {
        sc("%s", ca + 1);
        sc("%s", cb + 1);
        int n = strlen(ca + 1);
        int m = strlen(cb + 1);

        for (int i = 1; i <= n; i++)
            a[i] = tran(ca[i]);

        for (int i = 1; i <= m; i++)
            b[i] = tran(cb[i]);

        for (int l = 0; l < 4; l++)
            sum[l] = 0, cnt[l] = 0;

        for (int i = 1; i <= n; i++)
            sum[a[i]]++;

        for (int i = 1; i <= m; i++)
            sum[b[i]]++;

        mn[0] = 0;

        for (int j = 1; j <= m; j++) {
            for (int l = 0; l < 4; l++)
                pre[j][l] = pre[j - 1][l];

            pre[j][b[j]]++;
            mn[j] = 0;

            for (int l = 0; l < 4; l++)
                mn[j] += min(pre[j][l], sum[l] - pre[j][l]);
        }

        seg::build(1, 0, m);
        int ans = seg::val[1];

        //      seg::print(1,0,m);
        for (int i = 0; i < 4; i++)
            pt[i][0] = m, pt[i][1] = m + 1;

        for (int i = 1; i <= n; i++) {
            //          for(int j=0; j <= 3; j++)cout << pt[j][0]<<" "<< pt[j][1]<<" ";
            //          cout <<endl;
            //          cnt[a[i]]++;
            while (pt[a[i]][0] >= 0 && cnt[a[i]] > sum[a[i]] / 2 - pre[pt[a[i]][0]][a[i]] - 1)
                pt[a[i]][0]--;

            while (pt[a[i]][1] > 0 && cnt[a[i]] >= (sum[a[i]] + 1) / 2 - pre[pt[a[i]][1] - 1][a[i]])
                pt[a[i]][1]--;

            cnt[a[i]]++;
            seg::modify(1, 0, m, 0, pt[a[i]][0], 1);
            seg::modify(1, 0, m, pt[a[i]][1], m, -1);
            //          seg::print(1,0,m);
            ans = max(ans, seg::val[1]);
        }

        pr("%d\n", ans);
    }

    return 0;
}
```
九、总结

本题的关键在于：
1. 理解字符串价值的定义：任意排列后两半的最大公共前缀长度。
2. 发现价值只依赖于两半的字符频率，与顺序无关。
3. 推导出最大价值的上界 $\sum \lfloor total[x]/2 \rfloor$ 和 $\lfloor n/2 \rfloor$ 的最小值。
4. 证明这个上界可以通过合适的 $c$ 和分界点达到。
该解法线性复杂度，可以处理大数据范围。

ID

4803

时间

1000ms

内存

256MiB

难度

标签

递交数

已通过

上传者

樊玥燚

1 条题解

一、题意理解

二、价值计算的关键

1. 匹配分析

2. 为什么这是上界且可达？

三、问题转化

1. 用 $a$ 和 $b$ 的频率表示

2. 关键观察

四、最大化 $F[k]$

1. 可达性

2. 更精确的最大值

五、为什么与 $c$ 的排列无关？

六、样例验证

七、算法步骤

八、代码实现（C++）

九、总结

信息

1 条题解

一、题意理解

二、价值计算的关键

1. 匹配分析

2. 为什么这是上界且可达？

三、问题转化

1. 用 aaa 和 bbb 的频率表示

2. 关键观察

四、最大化 F[k]F[k]F[k]

1. 可达性

2. 更精确的最大值

五、为什么与 ccc 的排列无关？

六、样例验证

七、算法步骤

八、代码实现（C++）

九、总结

「美团 CodeM 初赛 Round B」合并字符串的价值

信息

还没有账户？

登录

1. 用 $a$ 和 $b$ 的频率表示

四、最大化 $F[k]$

五、为什么与 $c$ 的排列无关？