AI学术分析课程 - 智能整理学习材料

智能整理概述

信息获取之后，就是信息整理。传统的信息整理是为了有序地存储和数字化管理，方便人为存取。但是AI时代，信息整理的重心发生了很大改变。

内容结构化

非结构化信息转化为结构化数据的能力大幅提升。

整理自动化

借助大模型对话，自动生成脚本，技术门槛大幅降低。

结果可模型分析

整理目的从存储到分析，方便AI理解分析。

学术信息的智能整理步骤

1

编码

给每条数据生成唯一ID，方便追踪管理

→

2

去重

识别并合并重复或高度相似的信息

→

3

分组

按维度组织数据结构

→

4

完善

补全缺失字段，统一数据格式与规范

第一步：编码

为何要进行编码？

识别溯源：每条数据都能准确定位，避免混淆
多源合并：不同数据库方便合并
自动化操作：脚本可以批量处理

编码设计原则

唯一性：保证全局唯一

• 不能重复，保证全局唯一
• 能反映来源/时间/类别，方便人工快速识别

稳定性：长时间周期不变

• 不易更改；一旦生成不要轻易修改
• 机器友好；便于排序和检索

两类常见学术编码体系

1. DOI (Digital Object Identifier)

DOI是数字对象唯一标识符，用来标识数字环境中的学术资源。它是ISO26324国际标准，保证在全球范围内不会重复。

构成：10.XXXX/S0168-8278(13)00228-6

常见前缀：

• Nature: 10.1038
• Science: 10.1126
• IEEE: 10.1109

2. ISBN

ISBN是图书和独立出版物的全球唯一标识符。

现代ISBN是13位数字（2007年后统一为13位）

第二步：去重

为什么要去重？

保证分析正确
降低存储成本

注意！去重 ≠ 一概删除
有些信息不需要去重：如果重复本身包含信息价值，就不应该删除。比如：
• 多源报道：新闻（不同媒体多角度报道同一事件）
• 版本演化：基金申请的不同版本
• 传播途径：学术评论（多位学者引用评论）

基于元数据的去重

对于规范类信息，依赖已有的标准化字段（DOI、ISBN）

识别：判断已有的标准化字段是否一致

⬇️

操作：合并，将元数据互补整合

基于内容的去重

补充类信息，提取文件内容进行去重（哈希值、向量值、RGB差值）

识别：计算文件内容的特征值

⬇️

操作：删除，直接保留一份

去重工具推荐

基于哈希值和RGB差值

• dupeGuru：查找计算机上重复文件的工具
• imgdupes：计算重复图像的命令行工具

基于向量值的查重

• FastGPT：借助知识库查询相似语义句子
• Chroma：向量数据库，支持语义相似度搜索

第三步：分组

学术信息的特点

时间

学术信息天然有时间戳（发表时间）

空间

天然有空间标签（作者机构/国家、期刊地点）

变量

主题、关键词、引用数、影响力

三种不同的分组方式

①时间分组：反映领域演化趋势

• 等时间切片分组：分钟/小时/天/周/月/年
• 关键时间节点前后分组：重大事件、政策发布前后分组

举例：

• 按年份给巴瑞特教授论文分组
• 2017年Transformer论文→2022年11月GPT3.5前后分组

②空间分组：反映学术研究进展背后的原因

将学术信息按照空间分布进行分组，可以按照国家、城市、研究机构、期刊平台等分组。

③变量分组：反映学术研究的理论结构

将学术信息按照内容本身属性进行分组，可以按照研究主题、关键词、影响力等。

④综合：复合分组

• 时间✖变量
• 空间✖变量
• 时间✖空间
• 时间✖空间✖变量

第四步：完善

什么是元数据规范？

定义：元数据规范就是对元数据的字段名称、格式、顺序做了统一规定。

例如"作者姓名是先写姓还是先写名？"、"期刊名用全称还是缩写？"

世界上主流的论文元数据规范

1. OpenAlex规范

特点：全开放、字段丰富

主要字段：id、doi、title、authorships、publication_date、concepts、cited_by_count

2. CrossRef规范

特点：适合找DOI，但字段有限

主要字段：DOI、title、author、publisher、published_date

3. CNKI/万方规范

特点：对中文论文支持好，但格式封闭

主要字段：标题、作者、刊物、作者单位

元数据规范的选择标准

根据用途选择

1. 仅用于参考和文献管理

推荐规范：RIS规范够用

2. 需要进行详细字段分析

推荐规范：OpenAlex规范优先

3. 最少字段保留（通用）

保留字段：DOI、标题、作者、期刊/会议、发表时间、摘要

实践经验与工具推荐

AI编辑器实操核心技巧

🎯 Cursor设置要点

模型选择

优先使用Gemini 2.5 Pro，在代码能力、推理能力方面表现最佳

关键开关设置

• 打开auto run：实现自动化执行
• 禁止自动删除文件：确保数据安全
• 限制操作范围：只允许当前目录内操作

📋 User Rules底层规则

核心要求：

• 可追踪记录：每次操作输出详细日志
• 数据安全：不删除原数据，采用复制后操作

实际效果：

设置后只需简单提问，AI自动按规则执行复杂任务

编码操作实践要点

🔗 DOI补全流程

1

从Zotero导出CSV文件（选择前两种编码格式）

2

使用AI编辑器联网自动获取缺失DOI

3

对于仍缺失的DOI，让AI读取PDF内容提取

关键技巧：批量选择按住Shift、文件拖拽到对话框、分步处理先自动后手动

⏱️ 时间戳编码方案

适用场景：补充类信息（如Twitter、新闻等）无现成编码时

操作流程：

读取CSV元数据 → 按年月日时分秒生成唯一时间戳 → 转换为MD格式 → 创建Excel软链接索引

去重操作最佳实践

📚 Zotero去重插件

操作技巧：

• 单独查看：Mac按Option键，Windows按Alt键
• 批量合并：先设置主条目规则
• 按需启用插件，避免冲突

🔍 DuplicateFileFound工具

三种去重模式：

• 文件名模式：分词计算重复百分比
• 内容模式：MD5哈希值完全匹配
• 图片模式：RGB颜色分布相似度

效率优化建议

💡 AI对话策略

追问条件：正确率>80%

重新提问：正确率<80%，避免错误累积

💰 成本控制

建议99%自动化，最后1%人工干预

利用日志记录减少重复操作

🔗 软链接技巧

Excel索引文件体积小（仅12KB）

支持直接点击打开对应文档

AI编辑器 - Cursor

专为AI时代设计的代码编辑器，集成了强大的AI对话功能，可以帮助自动化处理批量文件操作。

• 支持与大模型对话生成脚本
• 自动处理文件批量重命名
• 元数据提取和补全
• 推荐使用GPT-4或Claude 3.5模型

文献管理工具

Zotero

• 支持RIS格式导入导出
• 丰富的第三方插件生态
• 免费开源，功能强大

去重工具

• dupeGuru：图形界面去重工具
• FastGPT：基于语义的文本查重

智能整理