SyntheT2C：生成合成数据以微调大型语言模型在文本到代码任务上的性能

将大型语言模型（LLM）与现有知识图谱（KG）数据库相结合，有望提高 LLM 的效率并减少其“幻觉”。然而，大多数 KG 存储在只能通过特定查询语言（如 Cypher）访问的图数据库中，因此亟需弥合 LLMs 与 KG 数据库之间的差距，实现自然语言到 Cypher 查询的自动转换，即“文本到 Cypher” (Text2Cypher) 任务。之前的研究尝试通过监督微调来提升 LLM 生成 Cypher 查询的能力，但由于缺乏标注好的“查询-Cypher”数据对，而人工标注工作量大、专业性强，导致进展缓慢。本研究提出了一种名为 SyntheT2C 的方法，用于构建包含“查询-Cypher”对的合成数据集。该方法包含两个主要步骤：（1）基于 LLM 的提示生成；（2）模板填充。SyntheT2C 能够生成大量“查询-Cypher”对，并从底层 Neo4j 图数据库中采样值。研究人员将 SyntheT2C 应用于两个医学数据库，创建了一个名为 MedT2C 的合成数据集。实验结果表明，MedT2C 数据集能够有效提升主流 LLMs 在 Text2Cypher 任务上的性能。 SyntheT2C 代码库和 MedT2C 数据集即将公开发布。

1. 论文研究目标及解决的实际问题

研究目标：
本论文的研究目标是通过合成数据的方式，提升大型语言模型（LLMs）在文本到Cypher查询转换任务（Text2Cypher）上的性能。

实际问题：
目前大多数知识图谱（KG）存储于图数据库中，只能通过特定的查询语言（如Cypher）进行访问。然而，由于缺乏自然语言到Cypher查询的标注数据集，LLMs难以直接应用于该任务。

问题的重要性：
该问题对于医疗信息化及人工智能领域具有重要意义。随着医疗知识的爆炸式增长，如何有效利用这些知识图谱成为关键问题。通过自动化地将自然语言查询转换为Cypher查询，可以大大提升KG数据库的利用效率，加速医疗知识的检索和应用。

2. 论文提出的新思路、方法或模型

新思路：
本文提出了SyntheT2C方法，用于构建合成Query-Cypher对数据集。该方法包含两个核心管道：基于LLM的提示（LLM-based prompting）和模板填充（template-filling）。

关键解决方案：

基于LLM的提示：利用预训练的LLMs（如GPT-4）生成Cypher查询，侧重于语义多样性。
模板填充：通过手动设计的模板和从Neo4j图数据库中抽取的实际值来生成具有复杂语法的Cypher查询。

特点与优势：
与以往方法相比，SyntheT2C无需手动标注数据集，能够自动生成大量高质量的Query-Cypher对。此外，通过结合两种不同策略的管道，SyntheT2C能够在保持语义多样性的同时，产生具有复杂语法的Cypher查询，增强了数据集的多样性和实用性。

3. 实验设计及验证方法

实验设计：

数据集：使用两个医疗数据库（LHY和Hetionet）来生成合成数据集MedT2C。
评估指标：Cypher查询质量（通过GPT-4o评价）和执行结果准确性（通过比较真实执行结果与查询结果）。
模型：对四种LLMs（GPT、Llama3、Qwen2、InternLM2）进行微调，并比较微调前后的性能。

实验结果：

Cypher质量提升：通过MedT2C数据集微调后的LLMs生成的Cypher查询质量显著提高，与人工标注的Cypher查询相比具有竞争力。
执行结果准确性：微调后的LLMs在执行Cypher查询时，结果准确性得到了提升。

4. 论文的贡献及产业影响

主要贡献：

提出SyntheT2C框架，能够自动生成高质量的合成数据集，用于提升LLMs在Text2Cypher任务上的性能。
构建并开源了MedT2C数据集，为Text2Cypher任务的研究提供了有力支持。

产业影响：

加速医疗知识的检索和利用：通过自动化将自然语言查询转换为Cypher查询，医疗专业人士可以更方便地利用知识图谱中的信息。
推动医疗信息化进程：SyntheT2C方法的应用，有助于提高医疗信息系统的智能化水平，为医疗决策提供支持。

潜在应用场景：

智能问答系统：在医疗问答系统中，利用SyntheT2C生成的合成数据，提升LLMs对自然语言查询的理解能力，提供更加准确的答案。
医疗知识图谱应用：在医疗知识图谱驱动的各类应用中（如药物发现、疾病预测等），利用SyntheT2C方法提升查询转换的准确性和效率。

5. 未来研究方向与挑战

未来研究方向：

探索更多类型的图数据库和查询语言：SyntheT2C方法目前主要针对Neo4j数据库和Cypher查询语言，未来可以拓展到其他类型的图数据库和查询语言。
提升生成Cypher查询的语义准确性：尽管SyntheT2C已经取得了显著的效果，但仍有提升空间，特别是在处理复杂查询时。

挑战：

模板编写的困难性：高质量的模板编写需要领域知识和经验，这对于非专业用户来说可能是一个挑战。
合成数据的质量控制：随着合成数据集的规模增大，如何确保数据质量成为一个重要问题。

6. 论文的不足及需要进一步验证的内容

不足：

模板编写的挑战：如上文所述，高质量的模板编写需要专业知识和经验，这限制了SyntheT2C的普适性。
合成数据的真实性问题：尽管经过严格的质量验证，但合成数据毕竟不同于真实数据，其真实性和实用性仍需进一步验证。

需要进一步验证的内容：

在更多领域和场景下的应用效果：目前SyntheT2C主要关注医疗领域，未来需要验证其在其他领域和场景下的应用效果。
与其他方法的对比研究：SyntheT2C方法与其他现有方法（如基于规则的方法、基于监督学习的方法等）的对比研究，有助于更全面地评估其性能。

7. 非技术背景读者的启发与背景知识补充

启发：

数据的重要性：合成数据作为一种新的数据生成方式，为解决标注数据不足的问题提供了新的思路。在AI领域，数据的数量和质量对模型的性能具有重要影响。
跨领域融合的趋势：SyntheT2C方法体现了自然语言处理与图数据库技术的融合趋势。未来，跨领域的融合将成为AI发展的重要方向。

背景知识补充：

大型语言模型（LLMs）：LLMs是一类先进的AI模型，通过大量文本数据的训练，能够理解和生成人类语言。LLMs在自然语言处理领域具有广泛应用，如机器翻译、文本生成等。
知识图谱（KG）：KG是一种结构化的知识库，用于表示实体之间的关系。KG在医疗、金融等领域具有广泛应用，为决策提供支持。
Cypher查询语言：Cypher是一种用于Neo4j图数据库的查询语言，用于表达和检索图结构中的信息。Cypher具有简洁、易读的特点，适合用于查询KG中的信息。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.