-
Notifications
You must be signed in to change notification settings - Fork 18
/
Copy path16_get_top_papers_demo.py
42 lines (33 loc) · 1.47 KB
/
16_get_top_papers_demo.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
# -*- coding: utf-8 -*-
"""
@author:XuMing([email protected])
@description:
"""
import sys
sys.path.append('..')
from agentica import OpenAIChat, Agent, PythonAgent
from agentica.tools.jina_tool import JinaTool
from agentica.tools.file_tool import FileTool
from agentica.tools.search_serper_tool import SearchSerperTool
from agentica.tools.text_analysis_tool import TextAnalysisTool
m = Agent(
model=OpenAIChat(model='gpt-4o'),
description="You are a helpful ai assistant.",
tools=[JinaTool(), SearchSerperTool(), FileTool(), TextAnalysisTool()],
debug_mode=True,
)
query = """
https://huggingface.co/papers?date=2024-11-15 解析该网页,理解内容,并提取所有论文的标题、作者、摘要、论文的链接、pdf链接等信息,保存到本地文件papers.json中,只要点赞超过10个的论文。
注意:pdf链接需要通过谷歌搜索论文题目获取,也保存到json中。
大概流程如下:
1. **解析网页内容**:
- 使用 `jina_url_reader` 工具来解析给定的URL,获取网页的全部内容。
2. **提取论文信息**:
- 解析得到的网页内容,使用大模型只提取点赞数大于10的论文的标题、作者、摘要、论文的链接、点赞数量等信息。
3. **获取PDF链接**:
- 对于各论文,使用 `SearchSerperTool` 工具通过标题搜索PDF链接。
4. **保存信息到本地文件**:
- 将最终的结果保存到 `papers.json` 文件中。
"""
r = m.run(query)
print(r)