1 条题解

  • 0
    @ 2025-10-21 19:21:05

    「SDOI / SXOI2022」子串统计 题解

    问题分析

    核心问题

    给定字符串SS,考虑所有从SS开始,每次删除开头或结尾字符,直到得到单个字符的操作序列。每个序列的贡献是路径上所有中间串在SS中出现次数的乘积。求所有2n12^{n-1}个操作序列的贡献之和。

    关键观察

    观察1:问题结构

    每个操作序列对应从完整区间[1,n][1,n]到某个长度为1的区间的一条路径,路径上的每个节点是一个子串S[l:r]S[l:r]

    观察2:贡献计算

    对于区间[l,r][l,r],其贡献因子为occ(S[l:r])\text{occ}(S[l:r]),即该子串在SS中的出现次数。

    观察3:路径计数

    [l,r][l,r]可以转移到[l+1,r][l+1,r][l,r1][l,r-1],因此路径数呈指数级增长。

    算法思路

    方法一:区间动态规划

    状态设计: 设dp[l][r]dp[l][r]表示从子串S[l:r]S[l:r]开始的所有操作序列的贡献和。

    状态转移

    $$dp[l][r] = \text{occ}(S[l:r]) \times (dp[l+1][r] + dp[l][r-1]) $$

    边界条件: 当l=rl = r时,dp[l][r]=1dp[l][r] = 1(单个字符,没有后续操作)

    答案dp[1][n]dp[1][n]

    方法二:基于后缀自动机的优化

    挑战:直接区间DP的复杂度为O(n2)O(n^2),对于n105n \leq 10^5不可行。

    优化思路

    1. 使用后缀自动机预处理所有子串的出现次数
    2. 利用字符串性质优化状态转移

    算法细节

    后缀自动机预处理

    步骤

    1. 构建SS的后缀自动机
    2. 计算每个状态的endpos\text{endpos}集合大小
    3. 对于任意子串S[l:r]S[l:r],可以快速查询其出现次数

    复杂度O(n)O(n)

    动态规划优化

    优化1:状态压缩

    观察发现,很多不同的[l,r][l,r]对应相同的子串,可以按子串而不是区间来设计状态。

    优化2:利用回文性质

    如果字符串具有特殊结构(如随机字符串、重复字符串),可以设计更高效的算法。

    优化3:分治策略

    将字符串分成若干段,分别计算后再合并。

    方法三:生成函数方法

    核心思想:将问题转化为在子串DAG上的路径计数问题。

    步骤

    1. 构建所有本质不同子串的DAG
    2. 在DAG上进行动态规划
    3. 利用后缀自动机优化状态空间

    复杂度分析

    直接区间DP

    • 时间复杂度O(n2)O(n^2)
    • 空间复杂度O(n2)O(n^2)
    • 适用于n5000n \leq 5000(测试点1-5)

    优化后的算法

    目标复杂度:O(nlogn)O(n \log n)O(nn)O(n \sqrt{n})

    实现要点

    后缀自动机构建

    // 构建后缀自动机,计算每个状态的出现次数
    struct State {
        int len, link;
        map<char, int> next;
        int cnt; // 出现次数
    };
    

    状态转移优化

    对于大规模数据,需要:

    1. 只存储必要的DP状态
    2. 使用记忆化搜索避免重复计算
    3. 利用字符串的局部性质

    特殊性质利用

    测试点6-8:随机字符串

    • 字符从{a,b}中等概率随机生成
    • 可以利用随机性设计启发式算法
    • 期望复杂度可能更优

    小规模数据(测试点1-5)

    可以直接使用O(n2)O(n^2)的区间DP。

    中等规模数据(测试点9-14)

    需要结合后缀自动机和优化的DP。

    数学洞察

    组合意义

    答案可以看作是所有可能"收缩路径"的权重和,其中每条路径的权重是路径上所有节点权重的乘积。

    生成函数视角

    F(S)F(S)表示字符串SS的答案,则有:

    $$F(S) = \text{occ}(S) \times [F(S[1:]) + F(S[:-1])] $$

    这是一个递归结构。

    优化策略

    策略1:状态去重

    如果S[l1:r1]=S[l2:r2]S[l_1:r_1] = S[l_2:r_2],那么dp[l1][r1]=dp[l2][r2]dp[l_1][r_1] = dp[l_2][r_2]

    策略2:早期剪枝

    occ(S[l:r])=0\text{occ}(S[l:r]) = 0时,该状态对答案没有贡献。

    策略3:记忆化搜索

    使用哈希表存储已计算的状态。

    总结

    本题的核心在于将指数级的操作序列计数问题转化为多项式复杂度的动态规划问题,关键技巧包括:

    1. 后缀自动机:高效计算子串出现次数
    2. 区间DP:刻画所有可能的删除路径
    3. 状态优化:利用字符串性质减少状态数
    4. 组合计数:处理乘积形式的贡献计算

    对于n105n \leq 10^5的数据规模,需要设计O(nlogn)O(n \log n)O(nn)O(n \sqrt{n})的算法,这通常需要结合后缀自动机和精心优化的动态规划。

    • 1

    信息

    ID
    3657
    时间
    1500ms
    内存
    256MiB
    难度
    9.8
    标签
    递交数
    3
    已通过
    1
    上传者