从.csv中读取URL并将抓取结果添加到前面使用的Python、BeautifulSoup、Pandas

最新推荐文章于 2026-06-24 09:50:49 发布

原创最新推荐文章于 2026-06-24 09:50:49 发布 · 845 阅读

8 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#python #beautifulsoup #pandas

从.csv中读取URL并将抓取结果添加到前面使用的Python、BeautifulSoup、Pandas
首先，我们需要确保已经安装了必要的库：requests（用于发送HTTP请求），BeautifulSoup（用于解析HTML），Pandas（用于数据处理）。如果没有安装，可以使用pip命令进行安装：

```bash
pip install requests beautifulsoup4 pandas
```

接下来，我们将使用Python、BeautifulSoup和Pandas从.csv文件中读取URL并抓取结果。首先，我们需要创建一个名为get_urls的函数来读取.csv文件中的URL。然后，我们使用requests库发送GET请求，解析HTML，并将抓取结果添加到Pandas DataFrame中。最后，我们将DataFrame保存为新的.csv文件。

以下是代码示例：

```python
import requests
from bs4 import BeautifulSoup
import pandas as pd

def get_urls(filename):
df = pd.read_csv(filename)
return df['URL'].tolist()

def scrape_url(url):
try:
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 这里只是一个示例，你可以根据需要解析HTML
result = soup.find('title').text
return result
except Exception as e:
print(f"Failed to scrape {url}: {e}")
return None

def save_results(filename, results):
df = pd.DataFrame({'URL': get_urls(filename), 'Result': results})
df.to_csv('scraped_results.csv', index=False)

if __name__ == "__main__":
urls = get_urls('urls.csv')
results = [scrape_url(url) for url in urls]
save_results('urls.csv', results)
```

这个代码首先从'urls.csv'文件中读取URL，然后对每个URL进行抓取，并将结果添加到'scraped_results.csv'文件中。如果抓取失败，会打印错误信息并继续处理下一个URL。

测试用例可以如下编写：

```python
def test_scrape_url():
assert scrape_url('https://www.example.com') == 'Example Domain' # 这里的'Example Domain'是www.example.com的网页标题

test_scrape_url()
```

如果使用的是人工智能大模型，可以创建一个函数来从抓取的结果中提取关键信息。例如，我们可以使用自然语言处理库（如NLTK或spaCy）来识别文章的主要观点或者关键词。以下是使用NLTK的示例：

```python
import nltk
from nltk.sentiment import SentimentIntensityAnalyzer

def extract_keywords(text):
tokens = nltk.word_tokenize(text)
pos_tags = nltk.pos_tag(tokens)
keywords = [word for word, tag in pos_tags if tag in ['NN', 'NNS', 'JJ']]
return keywords

def analyze_sentiment(text):
sia = SentimentIntensityAnalyzer()
scores = sia.polarity_scores(text)
if scores['compound'] > 0:
return 'Positive'
elif scores['compound'] < 0:
return 'Negative'
else:
return 'Neutral'

def analyze_results(filename):
df = pd.read_csv(filename)
keywords = [extract_keywords(result) for result in df['Result']]
sentiments = [analyze_sentiment(result) for result in df['Result']]
df['Keywords'] = keywords
df['Sentiment'] = sentiments
return df

if __name__ == "__main__":
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
results = analyze_results('scraped_results.csv')
results.to_csv('analyzed_results.csv', index=False)
```

这个代码首先从'scraped_results.csv'文件中读取结果，然后使用NLTK提取主要关键词，并使用情感分析库（如SentimentIntensityAnalyzer）来判断文章的情感。最后，将关键信息和情感信息添加到'analyzed_results.csv'文件中。