从纽约时报诉Perplexity浅析技术特性与责任认定——爬虫协议、幻觉与来源标注

首页 > 出版刊物 > 专业文章 > 从纽约时报诉Perplexity浅析技术特性与责任认定——爬虫协议、幻觉与来源标注

作者：魏欣怡　2025-12-30

2025年12月5日，The New York Times Company 在美国纽约南区联邦法院起诉 Perplexity AI（案由标注为 Copyright）。公开报道概括的争点集中在两类：其一，未经许可抓取、复制、展示大量新闻内容，包括付费内容；其二，生成式输出可能出现编造，并以商标并列方式造成错误归因或误导。

一、绕过robots协议的法律性质：从行业共识到不正当竞争

（一）robots协议的法律定位变迁

在传统搜索引擎场景下，robots.txt作为互联网行业自律规范，其遵守与否主要被视为商业道德与行业惯例问题。然而，在生成式AI与专业数据服务场景下，其法律意义发生了实质性变化。国内司法实践已出现对“robots协议在非搜索引擎场景下不宜当然套用传统规则”的讨论，这表明法院正根据使用场景和技术目的重新评估其法律地位。

在参考案例（2022）川知民终1939号（某信息服务公司抓取数据不正当竞争案）中，法院明确支持了网站运营者在非搜索引擎场景下设置Robots协议的合理性。法院认为：“原告为了保持其竞争优势，通过设置Robots协议，以此限制同业竞争对手以实质性替代的方式使用其数据信息，其设置行为具有一定的合理性。”

该案例的裁判逻辑可以被学理文章总结为：在非搜索引擎场景下，被抓取方通过Robots协议限制抓取的行为，不属于应受责难的影响信息自由流动的行为；而擅自抓取并进行同质化应用，属于“不劳而获”的盗用行为，不符合商业道德。

（二）绕过协议的行为定性

当脱离搜索引擎的公益语境后，当Perplexity等AI服务绕过robots.txt抓取内容时，对违反Robots协议行为的评价，应直接适用《中华人民共和国反不正当竞争法（2025修订）》现行有效的一般原则和具体规定进行分析。核心考察因素转变为：

1. 是否损害其他经营者合法权益：抓取行为是否对原告的网站或服务产生了“实质性替代效果”，分流其用户流量和交易机会。这与法律保护经营者合法提供的网络产品或服务正常运行的宗旨相符《中华人民共和国反不正当竞争法（2025修订）》第十三条。（参考【（2022）川知民终1939号】）

2. 是否扰乱市场竞争秩序：是否违反了诚信原则和公认的商业道德，通过不劳而获的方式攫取他人竞争优势。（参考【（2022）浙0192民初569号】）

3. 是否损害消费者利益：通常，此类替代性抓取并未给消费者带来新的、实质性的福利，反而可能因破坏原创激励而损害长期利益。

二、AI“幻觉”错误归因的责任辨析：诽谤/商誉侵权与版权侵权的分野

（一）编造内容错误引用来源的侵权性质

当AI生成内容存在事实性错误（“幻觉”），却错误标注来源（如本案中，Perplexity AI声称其提供的错误信息来自《纽约时报》），此行为构成两种不同性质侵权的竞合：

商誉侵权（商业诋毁）：根据《反不正当竞争法》第十一条，“经营者不得编造、传播虚假信息或者误导性信息，损害竞争对手的商业信誉、商品声誉。”AI系统若编造不实信息并以权威媒体名义发布，可能对媒体品牌的公信力造成损害，符合商业诋毁的构成要件。此时责任基础在于虚假陈述损害商誉，而非内容复制。

版权责任的排除：由于生成内容并非实际复制权利作品，而是系统自主编造，故不构成著作权法上的“复制权、信息网络传播权”侵权。北京菲林律师事务所诉百度案确立的原则——“计算机软件智能生成的内容未传递软件研发者及使用者的独创性表达”——在此仍有参照意义：编造内容既不复制原表达，也不体现原作品的独创性。

（二）责任主体与过错认定

服务提供者的注意义务：当AI服务以“提供权威信息来源”为卖点，并设计来源标注机制时，法院可能认定其负有更高审核义务。根据《民法典》第一千一百九十七条，网络服务提供者知道或应当知道用户利用其服务侵害他人民事权益，未采取必要措施的，与该用户承担连带责任。

界面设计作为归责因素：如国内判例所体现，“商标与来源卡片的呈现方式”会放大误导风险。若平台将媒体标识作为可信度背书，却未建立相应的事实核查机制，其过错程度可能增加。

三、《生成式人工智能服务管理暂行办法》中“来源信息”义务的落地与追责

（一）“提供来源信息”规定的三层解读

国家网信办等七部门发布的《生成式人工智能服务管理暂行办法》（以下简称《暂行办法》）第十二条规定：“提供者应当按照规定对生成式人工智能服务的生成内容进行标识，提供能够识别该内容为生成式人工智能生成的相关信息，并尊重他人合法权益。”

结合行业实践，该义务可分解为：

内容性质标识义务：明确告知用户内容为AI生成，此为基本层；

关键信息来源标注义务：对事实性、数据性内容，应标注所依据的主要信息来源，此为合规关键层；

可追溯的技术准备义务：虽未明文要求，但为应对可能纠纷，服务提供者应具备在一定期限内回溯生成过程、定位所涉数据来源的能力。

（二）实践落地中的合规梯度

从国内现有产品观察，来源标注实践呈现三个梯度：

（三）追责机制与证据标准

一旦因AI生成内容失实或侵权引发纠纷，司法机关可能从以下证据链角度审查平台是否履行“来源信息”义务：

事前技术可行性：平台是否设计并运行了合理的来源记录与标注系统；

事中行为合理性：针对特定争议内容，平台标注是否准确、充分，是否避免误导；

事后处置有效性：收到权利通知后，能否快速定位问题来源并采取停止传输、澄清等必要措施。

北京互联网法院在相关判决中体现的裁判思路——关注“是否破坏平台规则体系”“是否造成替代性分流”——在此同样适用：若来源标注机制形同虚设，导致用户大量获取本应付费或登录才能接触的内容，法院可能认定平台行为实质破坏了原内容方的商业模式。

四、结论：国内责任认定的司法趋向

综合国内司法实践与监管动向，对Perplexity类服务在国内可能面临的责任认定可作如下预判：

robots协议的违反将主要作为认定“违反商业道德”“主观恶意”的证据，而非独立案由，其法律后果体现在不正当竞争或侵权责任的加重上。

因AI‘幻觉’导致错误归因的行为，更可能构成商誉侵权（商业诋毁）而非版权侵权，关键在于证明虚假信息与来源标识的结合对权利方商誉造成了实际损害。

《暂行办法》的来源标注义务正在形成“形式标注+实质追溯”的双重标准：单纯添加来源链接可能不足，司法将审查标注的真实性、准确性以及平台是否建立了与之匹配的审核与追溯能力。

行业知识库类服务的特殊责任：当服务定位为“专业”“权威”时，法院可能适用更高注意义务标准，要求其采取与定位相符的信息核查与来源保障措施。

最终，国内法院在平衡数据流通与权益保护时，仍将回归到几个核心审查点：是否绕开技术措施与商业规则、是否形成实质性替代、是否造成用户分流与商业损害、是否尽到与产品特性相符的合理注意义务。这些审查点共同构成了生成式AI服务在内容获取与输出环节的责任边界。

全站搜索

从纽约时报诉Perplexity浅析技术特性与责任认定——爬虫协议、幻觉与来源标注

相关律师

扫码分享