Узнайте, как установить библиотеку Python BeautifulSoup на Ubuntu 22.04, 20.04 или любую другую версию of это Linux, который используется для веб-скреппинга и разбора HTML- и XML-документов.
Экосистема Python предлагает различные библиотеки для облегчения работы разработчиков, одной из таких является BeautifulSoup. Ее название, возможно, звучит не очень заумно, но она весьма полезна для тех, кто кодит на Python. Она предоставляет удобный способ извлечения данных с веб-страниц или поиска определенных элементов и получения их содержимого или атрибутов, что делает ее ценной для различных задач анализа данных и веб-скрапинга.
Основные возможности: разбор HTML и XML документов; поиск определенных элементов в дереве разбора; навигация по дереву разбора с помощью родителей, братьев, сестер и детей; определение кодировки документа и преобразование ее в Unicode; интеграция с другими библиотеками, такими как pandas или CSV, для хранения извлеченных данных.
Шаг 1: Установите Python PIP, если он еще не установлен
Самый простой и лучший способ установить библиотеку Python – это воспользоваться менеджером пакетов под названием PIP. Поэтому, если он у вас уже установлен, этот шаг можно пропустить.
Чтобы проверить, доступна она или нет, используйте:
pip -V
Если в результатах отобразится информация о версии, значит, PIP есть в вашей системе.
Однако если у вас еще не установлен PIP (Python package installer), то вот команды для его получения.
sudo apt update -y
sudo apt install python3-pip

Шаг 2: Установите BeautifulSoup на Ubuntu
Убедившись, что PIP доступен в вашей системе Ubuntu Linux, мы можем использовать его для установки различных библиотек Python, включая BeautifulSoup. Итак, в командном терминале Ubuntu запустите:
pip install beautifulsoup4 --user
Альтернативно, те, кто не хочет использовать PIP, могут воспользоваться менеджером пакетов APT, вот команда для этого:
sudo apt install python3-bs4
Шаг 3: Проверьте версию BeautifulSoup
Чтобы подтвердить с помощью команды предыдущего шага, действительно ли BeautifulSoup установлен в вашей системе для использования в Python Script или нет, мы можем использовать данную команду. Она предоставит нам информацию о версии указанной библиотеки и о том, где она была установлена.
python3 -m pip show beautifulsoup4

Шаг 4: Запустите простой тестовый скрипт
Давайте создадим простой файл сценария, в котором мы импортируем BeeatuifulSoup для разбора простого HTML-кода.
Используйте любой текстовый редактор и создайте новый файл Python. Здесь мы используем nano, например, test_beautifulsoup.py.
Добавьте в файл следующий код:
from bs4 import BeautifulSoup
html_doc = """
<html>
<head>
<title>Example HTML Page</title>
</head>
<body>
<h1>Welcome to Beautiful Soup</h1>
<p>This is an example paragraph.</p>
</body>
</html>
"""
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify())
Сохранить созданный файл, нажав Ctrl+X, введите Y , а затем нажмите кнопку Введите клавиша.
Запустите созданный Python-файл:
python test_beautifulsoup.py
В терминале Ubuntu вы увидите разобранный и отформатированный HTML.

Как обновить
В будущем, если для библиотеки Beautifulsoup будет доступно новое обновление, то для его обновления используйте:
pip install --upgrade beautifulsoup4 --user
Деинсталляция (необязательно)
Если через некоторое время вам больше не понадобится библиотека BeatuifulSoup из Python в вашей системе Ubuntu Linux, чтобы удалить ее, мы можем снова воспользоваться PIP, вот команда:
pip uninstall beautifulsoup4
Конечная заметка:
Beautiful Soup – это очень полезная библиотека Python для веб-скрапинга, и вы видели, что процесс ее установки довольно прост для Ubuntu Linux. Даже в других операционных системах для установки модуля Beautiful Soup можно использовать команду PIP, приведенную в этой статье.