揭开「所有专利皆平等」的迷思

第二部分—机器学习如何优化专利评量方式

我们在《专利质量与价值》系列的第一部分讨论了传统的专利评量方法及其问题,接下来我们将进一步详细介绍机器学习技术如何协助孚创云端开发团队建立更有效的方法。

如下图所示,孚创云端用于实现 专利质量与价值指标 的机器学习方法流程分为四个步骤,分别为数据取得与清理、变数计算、模型建立与验证,以下分别介绍。

Patentcloud 专利质量与价值指标的机器学习流程

Patentcloud Patentcloud 专利质量与价值指标的机器学习流程

数据清理及变数计算

透过严密的数据清理程序,透过严密的数据清理程序与特征工程 (Feature Engineering),孚创云端的数据科学家与专利专业人士合作,识别出 250 项定义特征集。

这些特征主要涉及下列因素:利害关系人 (例如发明人、申请人、代理人及审查官) 经验、前/后引证数量、权项结构、申请记录 (亦即驳回、修正、代理人变更)。

然而,每项候选变量皆须通过验证,才可以纳入特征集。

本文以「独立权利要求数量」此一变数为例,依据涉讼的美国专利进行验证。如图,实际数据显示,独立项数目较高的专利较可能专利相应于侵权诉讼的标的:

Patentcloud-独立权利要求数量

由于专利价值指标 反映专利公开或公告后的专利权实施或货币化的倾向,因此选择这项变量成为其中一项特征。

变量计算和建模

此部分主要涉及利用统计模型搭配平行运算技术来取得训练资料。

专利质量指标的训练资料包含申请再审查和多方复审 (IPR) 的专利,而专利质量指标的训练数据则收录了曾经交易、诉讼及前引证专利,以上两者都将正负样本列入考虑。

例如,专利质量指标模型的正样本包含 47,000 项曾经涉及诉讼、授权及遭请求宣告无效的专利,以及其他 47,000 项交易事件或前引证频率较高的专利。

相对地,从未涉及诉讼、授权、交易、申请无效证明或前引证的类似数量专利,则作为负样本。

专利质量指标模型的卷标数据报含类似规模的涉讼联营专利,遭请求宣告无效的专利为负样本,其余为正样本。

Patentcloud 机器学习训练信息来源

训练资讯来源

为了方便实务上使用,将较难解读的原始绝对分数转化成分级,评量各项专利与前述高质量或高价值模型之间的相似性,从中得出相对评量结果:

Patentcloud的专利质量与价值指标

Patentcloud的专利质量与价值指标

由于各项指标取决于专利公开 (或公告) 时所有可用的数据,因此公开 (或公告) 之后的所有数据皆未纳入评量考虑。

因此公开或公告后任何涉及诉讼、交易和遭请求宣告无效的数据,皆可能影响现有专利的专利品质与价值指标;但是这类信息可能会加入新公开及公告专利的训练数据集之中。

验证

完成初步建模后,孚创云端数据科学家继续与专利专业人士合作验证结果并优化模型。

为持续追踪模型和所要预测事件之间的关联显著性,团队建立了两套监控系统:其一监控专利侵权案件以验证价值;另一监控美国专利商标局 (USPTO) 的专利审查上诉委员会 (PTAB) 案件以验证质量。

专利价值指标监控系统会追踪涉及诉讼的专利,因为根据专利价值指标的定义,这类专利因有货币化潜能而较具价值,因此其专利价值指标应高于未曾涉讼的专利。

如下所示,在列入考虑的 4,867 项涉讼专利之中,有 60% 以上的专利其依价值指标 评量高于A级;

Patentcloud 专利质量价值指针-涉及诉讼专利总数

涉及诉讼专利总数: 4,867

以下为详细数据:

Patentcloud-美国地方联邦法院、美国国际贸易委员会 (ITC) 和USPTO PTAB IPR案件

注:数据来自美国联邦地方法院,美国国际贸易委员会(ITC)和USPTO PTAB IPR案件(推断为在 IPR请愿背后存在侵权纠纷),范围从2017/7/11至2018/7/09。

我们也以类似方式追踪再审查及 IPR 案件,藉此验证专利品质指标 的可靠度,从而得出类似的结果:在涉及 IPR 或再审查的 2,127 项专利之中,有 60% 以上专利质量指标低于 C。

Patentcloud-专利质量价值指针涉及 IPR 或再审查专利总数

涉及IPR或再审查专利总数: 2,127

以下为详细数据:

USPTO 美国专利公报 (Official Gazette)

注: 数据来自USPTO美国专利公报(Official Gazette),范围从 2015/01/06至2018/ 07/10 。

专利价值指标 亦参照专利商业化相关数据加以验证,例如专利链接数据 (FDA橘皮书)、标准必要专利 (Standard Essential Patents) 相关声明数据 (ETSI IPR 数据库),以及由多家 S&P 500 企业搜集的虚拟专利标示 (Patent Virtual Marking) 数据。其他入选的验证数据还包括北电网络 (Nortel) 等大型并购案。本研究是以专利组合 (布局) 或实体做为验证的基础,结果保守估计:

对于实体的专利组合或专利,拥有高于 A 和低于 C 等第的专利皆与指标所预测的货币化、商业化和无效等事件呈显著相关。

详细信息请洽我们的「客户成功」专家。

限制

Patentcloud 的品质与价值指标在于预测专利未来可能被行使专利权或是货币化的可能性,两者皆有其优势和限制。

首先,它们必须用于适当情境,因为有时面对不同的情况,「专利质量」及「专利价值」的字面意义未必符合指标的真实定义。

例如,即使专利质量价值指标反映发起诉讼或交易的可能性,但仍未考虑实施专利产品的市场规模或其成本效益的提升程度。

此外,专利价值指标较高,未必表示特定专利就一定会涉及诉讼或进行交易,其实专利很少涉及诉讼或交易1。然而,面对数量庞大的专利组合,指标有助于更准确找出较容易涉及诉讼或交易的专利。

如下图所示,专利价值指标显示公开或公告后涉及交易的专利中,评量为 AAA、AA 级专利后续发生交易的比率超过 30%,而评量为 D 级专利则仅有 5%。但即最高等级与最低等级有约 6 倍差距的显著性,但评量为 AAA、AA 级专利仍有 2/3 后续并未发生交易。 

Patentcloud-机器学习专利价值模型透过美国交易专利进行数据验证

专利价值模型透过美国交易专利进行数据验证

以下为详细数据:

Patentcloud- 专利事务数据

注:为了过滤内部关联公司的交易数据,只有交易超过2次的专利才包含在数据集中。

总而言之,指标的定义和应用情境之间的关联性越高,评量效力就越强。如果特定的情境需要用不同的标准评量的「专利质量」和「专利价值」,仍可采用上述指标,但应一并考量其他相关指标,以取得更理想的结果。

《专利质量与价值》系列的下一篇文章:全新质量与价值指标如何协助企业简化IP管理和情搜。

注:

  1. 例如,在2000年1月1日至2018年8月1日期间公告但未放弃的3,523,853项美国专利中,只有 64,516 (1.8%) 件专利涉及诉讼和 587,418 (16.7%) 件专利曾经交易。
2020-04-30T03:30:34+00:00

About the Author: