文本相似度检测

公告数据对比

数据ID 数据来源 原始数据(公告A) 原始数据(公告B) 清洗规则 预期结果 相似度阈值 实际结果
7 上市公司公告 贵酒(600520)初步公告:预计2023年净利润同比增长50%-100%。 贵酒(600520)正式公告:预计2023年净利润同比增长60%-90%。 去除停用词、实体识别、简繁转换 净利润增长率范围从50%-100%变为60%-90%,相似度较高(> 80%)
8 上市公司公告 A公司公告:与B公司达成战略合作协议,共同开发新能源汽车市场。 B公司公告:与A公司达成战略合作伙伴关系,携手开拓新能源汽车领域。 去除停用词、实体识别、简繁转换 两家公司公告描述同一合作事件,相似度较高(> 90%)
9 上市公司公告 贵酒(600520)公告:预计2023年净利润同比增长50%-100%, 实质上是贵州茅台公告... 贵州茅台(600519)公告:预计2023年净利润同比增长50%-100%。 去除停用词、实体识别、错别字纠正 公司名称不同导致相似度降低(< 50%),能够识别信息错误。

文本抄袭检测

数据ID 数据来源 原始数据(文本A) 原始数据(文本B) 清洗规则 预期结果 相似度阈值 实际结果
10 研报数据 XX证券研报:贵酒(600520)未来发展前景广阔,维持“买入”评级,目标价200元。 XX证券研报:贵酒(600520)未来发展前景广阔,维持“买入”评级,目标价200元。 去除停用词、实体识别 相似度极高(> 99%),判断为完全抄袭
11 研报数据 XX证券研报:贵酒(600520)未来发展前景广阔,维持“买入”评级,目标价200元。 YY证券研报:我们认为贵酒(600520)的未来发展潜力巨大,维持“买入”评级,目标价格为200元人民币。 去除停用词、实体识别、同义词替换 相似度较高(> 85%),判断为部分抄袭,存在同义词替换和语序调整
12 新闻数据 今日头条新闻:A公司宣布与B公司达成战略合作。 网易新闻:刚刚,A公司表示,他们与B公司构建了战略联盟。 去除停用词、实体识别、同义词替换 相似度较高(> 85%),判断为部分抄袭,存在同义词替换

敏感词监测

数据ID 数据来源 原始数据 清洗规则 预期结果 实际结果
13 股吧评论 贵酒这股票真是垃*圾*啊! 敏感词过滤 “贵酒这股票真是**啊!”(*替换为**)
14 股吧评论 贵酒这只股票,简直是割韭*菜*! 敏感词过滤、谐音识别 “贵酒这只股票,简直是割**!”(*替换为**)
15 新闻数据 贵酒公司发展前景一片光明。 敏感词过滤 “贵酒公司发展前景一片光明。”(无敏感词)
16 新闻数据 贵酒公司发布公告,严厉打击洗钱行为。 敏感词过滤 贵酒公司发布公告,严厉打击**行为。