Семалт објашњава како издвојити потребне податке са ХТМЛ веб локација

Велика количина информација представљених у мрежи сматра се "неструктуираном", јер није правилно организована. ХТМЛ веб локације разликују се по начину на који садрже организоване документе, а текст представљен у документима је структуриран у оквиру ХТМЛ кода.

Постоје три главна начина вађења података са ХТМЛ веб локација:

  • Спремање текста на веб страници у ваш рачунар;
  • Писање кода за вађење података;
  • Коришћење посебних алата за вађење;

1. Како извући ХТМЛ са веб локације без кодирања

Садржај веб страница можете да изгребате користећи кораке описане у наставку:

Само издвајање текста

Након отварања веб странице која садржи жељени текст, кликните десним тастером миша и одаберите опцију "Сачувај страницу као" или "Сачувај као". Унесите име датотеке у поље "Назив датотеке", а из падајућег менија "Сачувај као врсту" одаберите "Веб страница, само ХТМЛ". Кликните на дугме „Сачувај“ и сачекајте неколико секунди.

Сав текст на тој страници је извучен и сачуван као ХТМЛ датотека. Оригиналне опције форматирања странице остају нетакнуте, а садржај можете уређивати у уређивачима текста као што је Нотепад.

Извлачење целе веб странице

Изаберите опцију „Сачувај као“ или „Сачувај страницу као“ у менију „Датотека“. Затим кликните на „Веб страницу, комплетна“ из падајућег менија „Спреми као врсту“. Након што кликнете на „Саве“, текст и слике ће бити извучени са странице и сачувани где год желите. Текст се смешта у ХТМЛ датотеку док су слике смештене у фасцикли.

2. Извлачење ХТМЛ-а са веб локације помоћу кодирања

Можете директно радити са ХТМЛ датотекама користећи посебне алате. Такође, можете да креирате код да уклоните све ХТМЛ тагове и задржите текст садржан у ХТМЛ датотекама користећи КСПатх или регуларни израз. Неки од најпопуларнијих програмских језика за овај задатак укључују Питхон, Јава, ЈС, Го, ПХП и НодеЈс.

3. Кориштење веб алата за вађење података

Ако само желите да извучете ХТМЛ датотеке са веб локације без писања иједног ретка кода или избегнете мучење методе копирања и лепљења, користите веб алатке за брисање . У ствари, постоји пуно корисних алата који могу прикупити потребне информације са веб локације и затим их претворити у структурирани формат. Покушајте с неколико алата за стругање и сигурно ћете пронаћи онај који је најприкладнији за ваше потребе брисања.

mass gmail