top of page
作家相片Lille My

使用大型语言模型在线爬取数据


如果不了解网站的结构,网络搜索可能会让人望而生畏,不知所措。不过,LLM可以非常有效地帮助你。在此,我将介绍两种网络爬取方法。




第一种方法适用于初学者,您只需抓取一两个网页。基于文本的搜刮包括复制目标网站的 HTML,然后使用随机 LLM 提取所需的数据。这可以通过将 HTML 粘贴到一个 LLM(如 ChatGPT)中来实现,然后该 LLM 将返回您请求的数据。


第二种方法需要使用 Python。下面的视频介绍了如何使用 Python 和人工智能聊天机器人 GPT-4 创建网络刮板。该刮板可以汇总多个网站的信息,并回答您有关内容的问题。

首先,您需要注册一个 OpenAI 账户并获得一个 API 密钥。

您还需要安装一个名为 LayeredChain 的 Python 库。

代码由一个名为web_QA 的函数组成,该函数将 URL 列表和查询作为输入。

该功能使用 LayeredChain 将网页加载到矢量数据库中,然后使用 OpenAI API 调用 GPT-4 来回答您关于网页内容的问题。

视频以用户希望了解成语人工智能的例子演示了代码。用户在代码中粘贴了四个关于成语 AI 的 URL,并要求 GPT-4 总结成语 AI 是什么、有什么作用、如何使用,同时还提供了五个有趣的提示,供用户与成语 AI 配合使用。


Here is the video.



Here is the script.


from langchain.document_loaders import WebBaseLoader
from langchain.indexes import VectorstoreIndexCreator
from langchain.chat_models.openai import ChatOpenAI
from datetime import datetime
import dotenv

dotenv.load_dotenv()

def web_qa(url_list, query, out_name):
    openai = ChatOpenAI(
        model_name="gpt-3.5-turbo",
        max_tokens=2048
    )
    loader_list = []
    for i in url_list:
        print('loading url: %s' % i)
        loader_list.append(WebBaseLoader(i))

    index = VectorstoreIndexCreator().from_loaders(loader_list)
    ans = index.query(question=query,
                      llm=openai)
    print("")
    print(ans)

    outfile_name = out_name + datetime.now().strftime("%m-%d-%y-%H%M%S") + ".out"
    with open(outfile_name, 'w') as f:
        f.write(ans)

url_list = [
    "https://openaimaster.com/how-to-use-ideogram-ai/",
    "https://dataconomy.com/2023/08/28/what-is-ideogram-ai-and-how-to-use-it/",
    "https://ideogram.ai/launch",
    "https://venturebeat.com/ai/watch-out-midjourney-ideogram-launches-ai-image-generator-with-impressive-typography/"
]

prompt = '''
    Given the context, please provide the following:
    1. summary of what it is
    2. summary of what it does
    3. summary of how to use it
    4. Please provide 5 interesting prompts that could be used with this AI.
'''

web_qa(url_list, prompt, "summary")

此外,以下是《市场营销杂志》关于网络搜索研究的指南。



在《市场营销杂志》的一次网络研讨会上,题为"营销研究中的网络数据抓取"的小组讨论了网络数据在营销研究中的重要性以及收集网络数据所面临的挑战。小组介绍了一种新的方法框架,帮助研究人员以有效、可靠的方式收集网络数据。

该框架包括三个阶段:选择数据源、设计数据收集和提取数据。研究人员在每个阶段都需要仔细考虑一些因素,例如

  • 来源选择

  • 质量:研究人员应评估潜在来源网站的数据质量。这可能包括评估数据的准确性、完整性和相关性。

  • 稳定性:所选网站应具有稳定性,其结构或内容不太可能发生重大变化。这将有助于确保所收集的数据在一段时间内保持一致。

  • 易访问性:研究人员需要考虑访问所选网站数据的易用性。某些网站可能难以或无法自动搜刮数据。

  • 系列设计

  • 数据提取方法:研究人员需要决定如何从他们选择的网站中提取数据。这可能需要编写脚本来自动完成数据收集过程。

  • 取样:研究人员需要决定如何从他们选择的网站中进行数据取样。这将取决于研究问题和数据的性质。

  • 法律和道德考虑因素:确保数据搜刮过程合法且符合道德规范非常重要。研究人员应尊重他们正在刮擦的网站的 robots.txt 文件,并避免收集受版权法或隐私法保护的数据。

  • 数据提取

  • 数据清理:提取数据后,必须对其进行清理,以消除任何错误或不一致之处。这可能涉及删除重复条目、统一数据格式和检查缺失值。

  • 数据监控:研究人员应监控数据提取过程,以确保获得预期的数据。这可能包括定期检查数据是否有误。

发言人还讨论了网络数据搜刮中记录和可复制性的重要性。她建议研究人员仔细记录他们的数据收集过程,以便其他人可以复制他们的结果。


总之,视频提供了有关网络数据刮擦用于营销研究的宝贵概述。对于有兴趣在工作中使用网络数据的研究人员来说,这是一个很好的资源。

以下是从视频中获得的一些重要启示:

  • 网络数据是营销研究的宝贵资源,但必须以有效可靠的方式收集这些数据。

  • 新的方法框架可以帮助研究人员考虑数据搜刮过程中每个阶段的重要因素。

  • 刮擦数据时需要仔细考虑法律和道德问题。

  • 文件对可复制性至关重要。

Comments


bottom of page