符号规划中的行动模型自动学习理论：克服部分观察挑战算法轨迹动作|增量学习和持续学习_在线学习

Liftedactionmodelslearningfrompartialtraces

摘要

对于应用符号规划，有必要提供符号动作模型的规范，这通常由领域专家手动指定。然而，由于人为错误或缺乏领域知识，这种编码可能存在缺陷。因此，自动学习符号动作模型已被广泛采用作为手动规范的替代方法。在本文中，我们专注于从一组部分可观察的计划轨迹中离线学习动作模型的问题。特别是，我们提出了一种方法来：

（i）通过应用预定义的逻辑规则增强给定计划轨迹的可观察性；

（ii）在动作执行前后的部分观察中学习计划轨迹中每个动作的前提和效果。我们正式证明了我们的方法学习的动作模型具有其他方法未提供的基本理论属性。我们通过实验展示了我们的方法在大量现有基准领域上超越了最先进的方法。此外，我们比较了学习的动作模型在解决规划问题方面的有效性，并展示了我们方法学习的动作模型在与最先进的方法相比时更加有效。

关键词：

-规划(Planning)

-学习(Learning)

-动作模型(Actionmodel)

-部分可观察性(Partialobservability)

-计划轨迹(Plantraces)

1.引言

自动化规划技术需要通过动作模型来规范规划领域，即每个动作都有一组前提条件和一组效果。然而，手动规范动作模型通常是一项不准确、耗时且容易出错的任务。自动学习动作模型被广泛认为是克服这些困难的关键且迫切的挑战。为了确保动作模型的通用性和可重用性，前提条件和效果是使用提升方案（liftedschemes）来规范的，这些方案独立于每个规划领域中涉及的具体对象集合。已有多项工作解决了学习动作模型的任务，并根据不同的视角和假设提供了重要的结果，参见例如[1–3,9,12,26,27,29,30,32,23]。一个常见的假设是从提供一系列成功执行的动作信息以及每次执行前后状态信息的轨迹输入集中学习动作模型。一些工作解决了从部分轨迹学习动作模型的问题，即在这些轨迹中，一些状态变量的值是未知的，一些执行的动作可能缺失。尽管这个问题直观上很清楚，但其正式规范远非显而易见，并且以前的工作并没有完全解决。一些重要方面仍然缺失，包括确定不同可能性中输出动作模型的标准，以及评估学习模型效能的标准。

给定一组部分轨迹，问题是学习一个能够生成与输入部分轨迹一致的轨迹的动作模型。然而，一般来说，这样的动作模型不是唯一的。实际上，两个动作模型可能会以不同的方式完成部分轨迹，补充缺失的动作和状态变量的缺失值。因此，我们需要一个标准来从所有可能生成给定部分轨迹的模型中选择一个模型。关于评估学习模型质量的标准，几项工作采用了前提条件和效果的精确度和召回率的标准度量。另一个需要考虑的重要问题是模型如何在解决规划问题时使用，找到相对于真实模型的可执行和有效计划。在本文中，我们提供了以下贡献：

我们提出考虑所有能够生成输入部分轨迹集合的可能模型中的最小动作模型。为了描述部分轨迹的最小模型是什么，我们定义了动作模型集合上的偏序。直观上，部分轨迹的最小模型是与轨迹一致的“最小”模型，即只包含必要效果以证明轨迹中观察到的变化的模型。我们将看到，部分轨迹可以有多个最小模型，这为动作模型学习留下了一定的不确定性空间。

我们提供了一组完整且正确的完成规则，用于推导出所有与部分可观察状态和完全可观察动作的轨迹集合一致的最小模型。我们证明，通过这些规则的迭代应用，直到部分轨迹和学习到的模型不再变化，可以推导出部分轨迹集合的最小模型。从最小模型集合中，我们可以提取出可能属于动作模型的所有动作的前提条件，以及模型中必然包含的所有效果。

我们定义了一个名为OffLAMPT的算法，它迭代地应用完成规则，并保证终止并计算出一组部分轨迹的所有最小模型。

我们在过去的国际规划竞赛（IPCs）中采用的18个规划领域的基准上评估了OffLAMPT。我们展示了我们的算法在几乎所有任务中都优于最先进的系统，使用了前提条件和效果的精确度和召回率的标准评估。我们还评估了OffLAMPT学习的动作模型在解决问题和计算有效解决方案方面的效能。这一评估表明，即使在效能方面，所提出的算法在所有情况下都优于最先进的方法。

本文的结构如下。第2节总结了关于动作模型学习的最新工作；第3节提供了必要的背景知识；第4节描述了推导出所有与部分可观察状态和完全可观察动作的轨迹集合一致的最小动作模型的完成规则；第5节展示了完成规则的迭代应用满足关于最小模型计算的几个基本理论属性；第6节介绍了OffLAMPT算法；第7节引入了一个额外的规则来处理具有部分可观察动作的轨迹；第8节介绍了我们实验研究的结果；最后，第9节给出了结论并提到了未来的工作。

离线方法在输入轨迹中的状态和动作的可观察性上有不同假设的情况下解决模型学习问题。Stern和Juba[28]提出了一种从一组完全可观察轨迹中学习具体动作模型的方法。值得注意的是，学习到的动作模型保证是安全的，即使用学习到的动作模型计算出的计划是合理的。这种方法已经被扩展为SAM方法，用于学习提升动作模型[18]。学习到的动作模型仍然是安全的，但它们的计算需要一个额外的假设，称为“注入动作绑定”，即假设每个动作参数都被替换为不同的对象。后续工作已经扩展了SAM以处理不符合注入动作绑定假设的具体动作[18]。进一步的工作已经扩展了SAM，用于学习概率动作模型和带有数值变量的动作模型[19,25]。所有这些工作都假设输入轨迹具有完全可观察的状态和动作，而我们的方法处理的是部分可观察轨迹。

Bachor和Behnke[7]研究了从一组完全可观察轨迹中学习动作模型问题的复杂性。他们引入了动作模型之间的偏序关系，以给出动作模型的最小性概念，使得小于安全模型的模型是安全的。我们给出了一个类似的概念，不同的是我们不区分正面和负面效果。因此，我们的方法可以推导出不安全的动作模型。

在本节的剩余部分，我们专注于从部分可观察轨迹中学习。动作关系建模系统（ARMS）是最早提出的从具有部分可观察状态和完全可观察动作的轨迹中学习动作模型的方法之一，使用STRIPS语言编码[30]。为了学习动作模型，ARMS构建了一个加权命题可满足性问题（加权MAX-SAT），并使用MAX-SAT求解器来解决它。SAT问题的约束是从输入轨迹中的状态和动作提取出来的。ARMS保证学习到的动作模型大致正确且简洁；正确性和简洁性的概念是根据用于评估的一些指标（即错误率和冗余率）给出的。

另一种与ARMS从同类型轨迹中学习的方法是EPI-SAM[24]。EPI-SAM通过在初始状态和条件效果的定义中使用析取，来处理序列中某个动作具有特定效果的不确定性。具体来说，它输出一个符合规划问题，使得解决这样一个问题的强计划保证对于真实模型是合理的。与EPI-SAM不同，OffLAMPT可以从具有部分可观察动作的轨迹集合中学习，并输出一个可以被传统规划器使用的动作模型。

CAMA从一组轨迹和一个由人工注释派生的嘈杂初始动作模型中学习动作模型[31]。与ARMS类似，CAMA将学习问题编码为一个基于人工注释和输入轨迹的软约束集合构建的加权MAX-SAT问题。之后，CAMA使用加权MAX-SAT求解器解决问题，并将求解器的解决方案转换为动作模型。

学习对象中心模型（LOCM）从具有完全可观察动作和不可观察状态的轨迹集合中学习动作模型[12]。它将问题对象分组，使得每个对象在其集合中的行为与其他对象相同。之后，它组装每个对象组的过渡行为（由有限状态机确定），组装不同对象组之间的过渡协调，以及不同组对象之间的关系。值得注意的是，LOCM不需要输入关于要学习规划领域的知识（例如，谓词名称集合），但它不处理静态知识（例如，不在任何动作效果集中的前提命题），这些需要明确指定。后续工作通过允许对象的行为由多个有限状态机表示，扩展了LOCM以学习更广泛的领域[11]。最后，LOP扩展了LOCM以处理静态知识，但需要输入一组最优计划轨迹[15]。

据我们所知，FAMA是唯一一个与OffLAMPT使用相同类型输入轨迹的动作模型学习器。实际上，与OffLAMPT类似，FAMA可以从具有部分可观察状态和动作的轨迹集合中学习动作模型。它通过将学习任务转换为经典规划任务来学习动作模型。FAMA可以处理不同类型的输入，从一组完整的轨迹到只包含初始和最终状态的局部轨迹（没有中间动作或状态）。与FAMA相比，OffLAMPT保证计算所有与输入轨迹一致的“最小”模型。此外，我们将展示在实践中，使用我们的方法计算的模型在许多方面都优于FAMA计算的模型。

规划社区还提出了一些方法，用于学习编码成比STRIPS更富表达力语言的动作模型。例如，

LAMP输出具有量词和逻辑蕴含的动作模型[33]；

SLAF输出具有具有全称量词的动作效果模型[3]。

我们的工作集中在学习编码成PDDL语言的动作模型，使用STRIPS假设来处理动作前提和效果。

在上文中，我们交替使用“动作模型”和“规划领域”这两个术语。我们还使用“具体模型”（groundmodel）这个术语来表示针对某些常数集合的模型的有限状态机。根据上下文可以确定适当的意义。

在完全可观察性（totalobservability）下，一个状态可以被明确地表示为一组原子（正字面量）；如果一个原子不在一个状态中，那么它被假定为在该状态下为假。相反，在部分可观察性（partialobservability）下，原子及其否定的缺失应该被视为对原子真值缺乏证据。换句话说，在部分可观察性下，一个状态的完整描述包含对于每个原子(p(c))要么(p(c))要么，而一个部分状态是完整状态的一个真子集。

我们现在准备正式定义从输入的部分轨迹集合中学习动作模型的问题。我们假设这些轨迹集合中包含的知识是可靠的，即在轨迹中不可能发生一个动作(a)在一个轨迹中使一个原子为真，而在另一个轨迹中使同一个原子为假。

我们通过寻找与输入轨迹集一致的所有“最小”模型来解决这个问题。这需要对动作模型集合定义一个偏序。直观地说，如果模型1从一个状态出发的转移是模型2的子集，并且在一个状态下执行动作导致的状态变化是模型2的子集，那么模型1比模型2更小。让我们正式定义我们所说的最小模型的含义。

可以很容易地证明，和是偏序。′的定义类似于[18]（定义4）中给出的是相对于′的安全动作模型的定义，唯一的区别是我们不要求在和′中，当动作应用于相同状态时，动作的效果相同，而只是要求中的动作效果少于或等于′中的效果。实际上，定义14的条件2和3规定了在′中不被动作改变的文字是也在中不被改变的文字的子集。

上述命题表明，两个动作模型之间的关系不依赖于一组常量。实际上，只需考虑操作符的先决条件和效果就足够了。上述命题的第二个结果是，二元关系是具有固定谓词和操作符的动作模型集合上的偏序。这使我们能够提供以下定义。

其中每个圆圈代表一个包含圆圈中所示文字的部分状态，每条边代表一个动作。这个部分轨迹显示()在第一个状态和第三个状态之间变为假，但由于我们没有观察到()在第二个状态的真值，可能是()被第一个动作（即()）或第二个动作（即()）或两者都使其变为假。如果是唯一的谓词且是唯一的常量，那么部分轨迹的唯一两个可能的完成1和2是以下轨迹：

值得注意的是，如果根据谨慎模型，动作在状态中是可应用的，那么它在中也是根据所有与兼容的模型（包括地面真值模型）可应用的。类似地，根据谨慎模型，在上执行的变化也是由所有与兼容的模型以及执行的。然而，这并不能保证在谨慎模型中可执行的计划在中也是可执行的。考虑以下示例。

示例3.假设在中，原子()是两个动作()和()的负效果和正先决条件。假设在谨慎模型中，()不包含在()的负效果中。虽然计划((),())在谨慎模型中从初始状态()为真时是可执行的，但在中不可执行，因为()在执行()后变为假，使得()不可应用。

谨慎模型保留了地面真值模型的单个转移，但谨慎模型的转移结果状态的变化可以是地面真值模型变化的一个子集。这可能会因为负效果而损害地面真值模型中转移序列的可执行性。一些方法（例如，[7,24,28]）计算保留转移序列可执行性的安全动作模型。

在我们的工作中，我们专注于计算最小动作模型，这些模型是与输入轨迹集一致的最小模型。然而，我们承认存在其他有趣的模型值得学习，例如安全模型[28]。值得注意的是，最小动作模型对于推导安全模型以及谨慎模型也是有用的。实际上，假设先决条件和目标不是负的，很容易看出可以从最小动作模型定义安全动作模型，如定义16所示的先决条件和正效果，并将所有与输入轨迹一致的负效果视为负效果集。

4.从部分轨迹学习动作模型

在本节中，我们提出了一种基于一组完成规则的学习动作模型的方法。完成规则的应用根据轨迹中的证据逐步细化动作模型，并使用正在构建的动作模型扩展部分轨迹。这个迭代过程继续进行，直到没有规则适用为止。随后，我们从学习到的模型中计算最小模型和谨慎模型。我们通过证明该方法是健全和完备的来结束本节，这意味着它识别了所有且仅与输入轨迹集一致的最小动作模型。

规则形式(1)通过观察包含在中的转移所涉及状态中的文字，更新潜在先决条件、潜在和确定效果的集合。相反，规则形式(2)使用潜在先决条件、潜在和确定效果中包含的信息更新部分轨迹。最后，规则形式(3)通过考虑原子()为真或()为假这两种情况，更新中未观察到原子()的部分状态，从而产生两个替代的部分轨迹集。

4.1.学习先决条件和效果的规则

从第一个转移中，我们知道()是动作()的负效果，因此规则(4)将()添加到操作符()的确定效果集合中；第二个转移告诉我们()不能是动作()的先决条件，因此规则(6)从操作符()的潜在先决条件中移除()；最后，第三个转移意味着()不能是动作()的正效果，因此规则(5)从操作符()的潜在效果中移除()。

4.2.传播(非)效果的规则

类型(2)的规则包括对每个转移(,(),′)∈应用以下对四元组的变换：

这根据的确定和潜在效果集合，扩展了中在操作符执行之前和之后出现的状态。特别是，规则(7)简单地用动作的确定效果扩展了从动作()执行中获得的状态。规则(8)实现了惯性原则，该原则指出在动作()之前和之后的状态在所有未被()改变的文字上达成一致，即不在动作的潜在或确定效果中的文字。实际上，对于每个动作()，!(())包含我们迄今为止学到的效果，而(())包含我们迄今为止未排除在可能效果集合之外的文字。因此，如果一个原子不在!(())中，它肯定不会被()改变，因此在()执行之前和之后的状态中应该具有相同的真值。

人们可能会期望一个类似的规则用于潜在先决条件，以在动作执行之前用其先决条件扩展状态。然而，()是尚未验证的先决条件。形式上，地面真值模型中动作()的先决条件集合是(())的子集。唯一能发现一个原子需要是()的先决条件的方法是从一个原子为假的状态尝试执行动作并获得失败。由于在我们的设置中没有包含动作失败的轨迹，我们没有证据表明一个原子必须是动作的先决条件。对从失败中学习先决条件的方法感兴趣的读者可以参见论文[22]。

4.3.对未观察到的原子进行案例推理的规则

上述规则不足以完成部分轨迹集合以获得完全可观察的轨迹。一种可能的情况发生在部分轨迹中，某些原子()在执行一系列多个动作后发生变化，但我们没有足够的线索来决定序列中的哪个动作影响了()。示例2中提供了这种部分轨迹的一个实例。为了处理这些情况，我们必须进行案例推理，即我们必须考虑两种替代情况：()被/不被第一个动作影响。另一种需要案例推理的情况在以下示例中描述：

类型(3)的规则通过将最小模型的搜索分成两个“并行”情况来处理示例2和示例6中所示的情况，如下列变换所述：

直观地说，在搜索最小模型的开始阶段，我们还没有从潜在先决条件（效果）集合中排除任何谓词（文字），因此操作符的潜在先决条件集合包括所有可能的谓词，而潜在效果集合包括所有可能的文字。类似地，在开始阶段，我们还没有将任何文字添加到操作符的确定效果集合中，因此该集合是空的。规则(4)–(8)的应用将一个节点连接到树中的一个子节点，而规则(9)–(10)的应用将一个节点连接到两个子节点。让我们看一个完成树的示例。

通过将规则(5)应用于(1)和(3)的第二个转移，我们从操作符和的潜在效果中分别移除()和()。此外，我们将规则(6)应用于(1)的第一个转移，从操作符的潜在先决条件中移除()。唯一适用的规则是规则(9)应用于(1)和规则(10)应用于(2)和(3)。具体来说，通过将规则(9)应用于(1)，我们得到两组轨迹。在应用所有可能的规则来传播效果和学习潜在先决条件、确定和潜在效果之后，我们最终得到完成树的两个节点，表示下表和图中定义的两个元组。

5.完成规则的健全性和完备性

由于我们对寻找一组部分轨迹的最小模型感兴趣，因此确定如何从完成树的叶子中获得这些模型至关重要。首先，回想一下，完成树的叶子可能包含初始部分轨迹的非最小模型。例如，示例7的完成树包含四个叶子，对应于与初始部分轨迹集一致的四个动作模型，但并非所有这些模型都是最小的。从示例8中显示的偏序可以看出，其中只有两个是最小模型。然而，我们可以证明所有最小模型都在完成树的叶子所表示的模型中。为了证明这一完备性结果，由于元组中表示的轨迹集可能是部分的，我们引入了一种方法来完成这些轨迹以获得完全可观察的轨迹。为此，我们定义了以下变换。

6.AlgorithmOffLAMPT

8.实验

在本节中，我们介绍并讨论了一项实验研究的结果，目的是：(i)评估在不同设置和规划轨迹可观察性程度下学习到的模型的质量；(ii)比较学习到的模型相对于从部分可观察规划轨迹学习动作模型的最先进方法的质量和有效性。

8.1.实验设置

评估动作模型在不必要的（或缺失的）知识方面的数量是合适的，例如，当学习到的模型需要由人类验证时，因此学习到的模型不应包含不必要的知识（正如我们在实验中考虑的地面真值模型通常的情况）。另一方面，不必要或缺失的知识对计算有效计划的学习到的模型的有效性影响可能显著不同。例如，假设在学习到的模型中，某个操作符缺少一个先决条件，而这个先决条件由同一操作符的不同学习到的先决条件所隐含；那么，这个缺失的先决条件对使用学习到的模型计算的计划的合法性没有影响。因此，至于有效性，我们还根据相对于地面真值模型的有效计划百分比比较了学习到的模型。特别是，我们构建了一组不同于用于生成轨迹和学习模型的测试问题集。我们使用这组测试问题和学习到的模型运行了一个最先进的规划系统，并根据地面真值模型验证了计算的计划。相对于地面真值模型，有效计划百分比越高，用于计算这些计划的学习到的模型越有效。类似地，我们测量了在使用学习到的模型计算的计划中，使用地面真值模型计算的计划中丢失的计划百分比。丢失的计划百分比越低，学习到的模型越宽容。

8.2.学习到的模型的质量

OffLAMPT计算的模型在三种不同的轨迹设置下进行了评估：(i)部分可观察状态和完全可观察动作；(ii)完全可观察状态和部分可观察动作；(iii)部分可观察状态和动作。对于每种设置，图1显示了平均精度和召回率。曲线表示在考虑的基准领域上学习的18个动作模型的平均值，而每条曲线周围的形状区域表示标准偏差。

图1中的结果表明，当轨迹具有部分可观察状态和完全可观察动作时，学习到的模型的质量很高。由于OffLAMPT从潜在先决条件集合和确定效果集合中定义了谨慎模型，因此模型不会遗漏任何先决条件，但可能包含额外的先决条件，并且不会包含任何额外的效果，但可能会遗漏一些效果。因此，图1中的结果表明，学习到的模型中额外先决条件和缺失效果的数量很低。更具体地说，虽然召回率通常等于1，但精度更频繁地低于1，因为在我们的学习模型中，缺失效果非常少，但有时包含一些额外的先决条件。发生这种情况的原因是某些文字，如静态文字，不能从潜在先决条件集合中排除，因为它们的否定从未出现在输入轨迹集合中。值得注意的是，即使可观察性率很低（例如0.1），性能也很好，这意味着OffLAMPT使用的规则在推断或假设轨迹部分状态中缺失文字的真值方面非常有效，因此细化动作先决条件和效果集合。具有部分可观察动作和完全可观察状态的轨迹的结果类似。只有当状态和动作都部分可观察且可观察性程度低于0.4时，学习到的模型的质量才会变差。在这种设置下，缺失证据的数量很大，OffLAMPT的规则无法推断出有用的知识来细化动作先决条件和效果集合。

OffLAMPT在三种考虑的轨迹设置下实现的精度和召回率的标准偏差相当，并且不会因不同的可观察性程度而剧烈变化。该方法的性能更多地受到领域性质和输入轨迹中有用证据数量的影响。例如，当轨迹具有部分可观察状态和完全可观察动作时，Blocksworld领域学习到的模型的总体精度始终为1，而Gold-miner领域的总体精度范围从0.48到0.72。类似地，Blocksworld的总体召回率范围小于Gold-miner：Blocksworld的总体召回率范围从0.93（可观察性程度等于0.1）到1，而Gold-miner的范围从0.71到0.95。特别是，Blocksworld学习到的模型不包含额外的先决条件，并且几乎总是没有缺失效果（只有当可观察性程度等于0.1时有一个缺失效果），而在Gold-miner学习到的模型中，额外先决条件的数量范围从15到83，缺失效果的数量范围从2到20。

附录A显示了OffLAMPT在每个领域上的精度和召回率的详细结果。对于具有部分状态或部分动作的轨迹，当可观察性程度大于0.3时，OffLAMPT通常能够从轨迹中提取所有有用的知识。实际上，对于除三个领域外的所有领域，当可观察性程度为0.4（或更高）时，OffLAMPT实现了与完全可观察轨迹相同的最佳性能。正如预期的那样，对于具有部分状态和部分动作的轨迹，情况恶化了，因为对于除三个领域外的所有领域，OffLAMPT仅在可观察性程度为0.6（或更高）时实现了最佳性能。另一个值得注意的结果是，对于Blocksworld、Gripper和Miconic领域，即使可观察性很差，OffLAMPT也能够推导出与地面真值模型完全相同的动作模型。

8.3.随着输入轨迹数量增加的性能

我们还研究了OffLAMPT的可扩展性以及当输入轨迹数量增加时学习到的模型的质量。我们考虑了从10到100的输入轨迹数量。这组轨迹随机生成如下：对于每个考虑领域中的10个问题，除了解决问题的FastDownward计划外，我们还从的前九个状态开始进行随机漫步，生成了九个轨迹。根据随机漫步获得的轨迹，我们按照第8.1节中的描述为我们的实验导出了输入轨迹。

8.4.与FAMA的比较

在本节中，我们将OffLAMPT与FAMA[2]进行比较，FAMA是一种从部分可观察轨迹学习动作模型的最先进方法。ARMS是另一种提出的用于学习动作模型的方法，使用STRIPS语言编码[30]。然而，我们不将ARMS作为我们实验的额外基线，因为ARMS处理具有部分可观察状态和完全可观察动作的计划轨迹；即，ARMS解决的问题比OffLAMPT更具体，OffLAMPT可以处理具有部分可观察状态和动作的轨迹。因此，ARMS可能仅作为我们实验中考虑的三种计划轨迹设置之一的额外基线。此外，Ainetoetal.[2]表明，对于具有部分可观察状态和完全可观察动作的输入轨迹，FAMA优于ARMS；因此，我们将FAMA作为我们实验中与之比较的最先进基线。

图5显示了OffLAMPT和FAMA使用5个部分轨迹的性能。图中的结果得出的结论与图4类似。与图4相比，主要区别在于当状态和动作都部分可观察时的性能。实际上，使用5个轨迹时的性能差距比使用2个轨迹时更大。使用5个轨迹时，我们可以得出结论，在精度和召回率方面，只有当可观察性程度非常低（在0.1到0.2之间）时，FAMA优于OffLAMPT，而当可观察性程度大于0.6时，OffLAMPT更好。

我们还比较了OffLAMPT和FAMA计算的模型的有效性，以有效计划和丢失计划的百分比为标准。对于这个实验，我们为每个领域生成了10个中小规模的问题实例，但Visitall和Gripper的单代理版本除外，因为我们找不到可用的生成器。然后，我们使用从2个轨迹中学习的动作模型，使用懒惰贪婪最佳优先搜索和上下文增强加性启发式[16]运行FastDownward规划器。从5个轨迹中学习的动作模型的FastDownward结果类似。对于每个可观察性程度，用于此实验的动作模型数量（几乎）为130，因为我们使用OffLAMPT和FAMA为每个用于此实验的13个领域学习10个动作模型（使用前面提到的程序）。对于FAMA，规划领域的数量略低于130，因为有时FAMA无法输出动作模型。因此，对于每个可观察性程度，我们考虑了（几乎）1300个规划问题。

表2显示了使用OffLAMPT和FAMA学习的动作模型计算的有效计划百分比。如果计划是可执行的并使用地面真值模型达到目标，则认为计划是有效的。OffLAMPT和FAMA之间的性能差距非常大，有利于OffLAMPT，因为使用OffLAMPT学习的动作模型计算的有效计划百分比几乎总是大于90，而使用FAMA学习的动作模型计算的有效计划百分比最多为20。

值得注意的是，当可观察性程度大于或等于0.8时，几乎所有使用OffLAMPT学习的动作模型计算的计划都是有效的。这是因为，如前所述，对于这种可观察性程度，召回率几乎等于1。有时，计划无效是因为某些动作模型缺少负效果，这影响了计划的合法性。有效计划百分比低于90仅当状态和动作都部分可观察且可观察性程度在0.2到0.4之间时。然而，即使对于这些设置，OffLAMPT为除N-puzzle外的所有领域学习的动作模型允许计算接近100%的有效计划百分比。对于N-puzzle，一半的学习动作模型允许解决大量无效计划的问题。实际上，在N-puzzle模型的一半中，有一个缺失的负效果，使得问题容易通过根据地面真值模型无效的计划来解决。

表3给出了使用OffLAMPT和FAMA学习的动作模型丢失计划的百分比。丢失计划百分比定义为使用地面真值模型计算的（1300个）计划中对学习模型无效的计划的比例。对于模型无效的计划无法使用模型计算，因此我们说它们被模型丢失了。表3中的结果显示，OffLAMPT丢失的计划比FAMA多得多，因此OffLAMPT的模型比FAMA计算的模型宽容度低得多。

OffLAMPT的无效计划比例通常很高的原因是，OffLAMPT学习的模型包含额外的先决条件，这使得使用地面真值模型计算的计划对学习模型无效。OffLAMPT无法从学习模型中排除这些额外的先决条件，因为输入轨迹中缺少信息。例如，对于Ferry领域，OffLAMPT学习的模型中动作sail包含额外的先决条件empty-ferry；这个额外先决条件的存在使得使用地面真值模型计算的所有计划对OffLAMPT的模型无效；而这种先决条件成为OffLAMPT模型一部分的原因是，在输入轨迹中，渡轮总是空载航行。值得注意的是，表3中OffLAMPT的高比例并不意味着OffLAMPT失去了解决问题的能力。例如，当可观察性程度大于或等于0.8时，尽管OffLAMPT丢失了超过一半的计划，我们通过实验观察到，使用OffLAMPT模型解决的问题百分比在每个考虑的轨迹设置中在60到70之间。图4显示，对于这种可观察性程度，召回率几乎等于1，因此几乎没有或没有缺失效果。因此，我们推测，使用OffLAMPT模型时，大约三分之一的问题未被FastDownward解决的原因是这些动作模型中存在额外的先决条件。

9.结论

可能有许多动作模型与一组部分轨迹一致。我们工作的

第一个贡献是确定与输入部分轨迹集一致的最佳动作模型的偏好标准：越小越好。我们认为模型1比另一个模型2小，如果从给定状态出发，1启用的转移是2启用的转移的子集，并且这些转移对1的改变是2的子集。然而，仍然可能有一个以上的最小模型与输入轨迹集一致。因此，我们计算一个模型，即谨慎模型，它由所有最小模型中存在的效果和至少一个最小模型中存在的先决条件组成。谨慎模型是这样的，它包含所有可能与输入轨迹一致的模型中必然存在的效果，以及至少一个与输入轨迹一致的模型中可能存在的先决条件。

第二个贡献是一组规则，用于计算与一组轨迹一致的所有最小模型的问题。我们证明，这些规则的迭代应用对于这个问题是健全且完备的。因此，我们提出了一种算法，首先计算输入轨迹集的所有最小模型，然后推导出谨慎模型。我们进行了一项广泛的实验研究，以评估使用所提出算法学习的模型相对于地面真值模型的质量。我们的研究考虑了从对执行的动作和遍历的状态几乎没有知识到完全可观察状态和动作的输入计划轨迹。输出模型与用于生成输入轨迹的地面真值模型的比较显示，我们的方法表现非常好。简而言之，当轨迹具有部分可观察状态或动作时，我们的方法生成的动作模型具有非常高的精度和召回率，这意味着我们的模型包含很少的额外先决条件，并且很少遗漏地面真值模型的效果。当轨迹具有部分可观察状态和动作时，如果输入轨迹中至少有一半的知识是关于执行的动作和遍历的状态的，那么精度和召回率非常高。

第三个贡献是提出除了相对于地面真值模型评估学习到的模型的质量外，还要实验评估它们在规划中的有效性。我们建议根据有效计划的百分比和丢失计划的百分比来评估它们的有效性。使用学习到的动作模型计算的计划如果可执行并使用地面真值模型达到问题目标，则被认为是有效的。使用地面真值模型计算的计划如果使用模型不可执行或未达到问题目标，则被认为是由学习模型丢失的。我们将我们的方法学习的模型与最先进方法FAMA学习的模型进行了比较。对于考虑的大量基准，当输入轨迹集具有部分可观察状态或部分可观察动作时，我们的模型通常优于FAMA学习的模型，当输入轨迹具有部分可观察状态、部分可观察动作，并且输入轨迹中的观察知识大致至少与缺失知识一样多时，我们的模型也优于FAMA。最重要的是，我们的方法在有效计划百分比方面优于FAMA，表明使用我们的方法学习的模型在输入轨迹集产生的世界中更具效果。最后，FAMA丢失的计划比我们的模型少，表明使用我们的方法学习的模型比FAMA计算的模型宽容度低得多。

THE END

符号规划中的行动模型自动学习理论：克服部分观察挑战算法轨迹动作

符号规划中的行动模型自动学习理论：克服部分观察挑战算法轨迹动作

类别增量学习研究进展和性能评价

机器学习之增量训练

连续学习与概念表征

增量学习中TaskincrementalDomainincrementalClassincremental三种学习模式的概念及代表性数据集？

培养学生可持续发展的学习能力

2024年大模型技术发展的十大趋势预测与分析

5.2随机森林在巨量数据中的增量学习lipu123

构建高效的人工智能问答系统的方法

CCFCV走进高校

突破！清华团队终身学习架构开启光速AI计算之门

2024机器视觉的困难与解决措施

CMA重要知识点：预测技术—学习曲线