Hoe kin ik in grutte side crawlje en gegevens útpakke mei de SEO-spin fan Screaming Frog
Wy helpe op it stuit ferskate kliïnten mei Marketo-migraasjes. Om't grutte bedriuwen bedriuwsoplossingen lykas dizze brûke, is it as in spinneweb dat him oer jierren yn prosessen en platfoarms weeft oant bedriuwen net iens bewust binne fan elk touchpoint.
Mei in bedriuwsmarketingautomatisaasjeplatfoarm lykas Marketo, binne formulieren it yngongspunt fan gegevens oer alle siden en lâningssiden. Bedriuwen hawwe faak tûzenen siden en hûnderten formulieren yn har heule siden dy't moatte wurde identifisearre foar bywurking.
In geweldich ark hjirfoar is Screaming Frog's SEO Spider... miskien it populêrste platfoarm yn 'e SEO-merk foar it crawljen, kontrolearjen en ekstrahearje fan gegevens fan in side. It funksje-rike platfoarm biedt hûnderten opsjes foar praktysk elke taak dy't jo nedich binne. De funksjes útwreidzje lykwols fier bûten optimalisaasje foar sykjen, mei ien ongelooflijk nuttige funksje foar it ekstrahearjen fan gegevens fan jo side as it wurdt krûpt.
Screaming Frog SEO Spider: Crawl En Extract
In wichtich skaaimerk fan Screaming Frog SEO Spider is dat jo oanpaste ekstraksjes kinne útfiere basearre op regex, XPath, of CSSPath specifics. Dit is ekstreem nuttich, om't wy de siden fan 'e kliïnt wolle trochsykje en de MunchkinID- en FormId-wearden fan siden kontrolearje en fêstlizze.
Mei it ark iepenje Konfiguraasje> Oanpast> Ekstraasje om eleminten te identifisearjen dy't jo wolle ekstrahearje.
It ekstraksje-skerm makket frijwol unbeheinde gegevensfersameling mooglik:
Regex, XPath, en CSSPath ekstraksje
Foar de MunchkinID is de identifier te finen yn it formulierskript dat op 'e side is:
<script type='text/javascript' id='marketo-fat-js-extra'>
/* <![CDATA[ */
var marketoFat = {
"id": "123-ABC-456",
"prepopulate": "",
"ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
"popout": {
"enabled": false
}
};
/* ]]> */
Wy jilde dan in Regex-regel om de id op te nimmen fanút it skripttag dat yn 'e pagina is ynfoege:
Regex: ["']id["']: *["'](.*?)["']
Foar de formulier-ID binne de gegevens yn in ynfiertag binnen it Marketo-formulier:
<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">
Wy jilde in XPath regel om de id te fangen fanút it formulier ynfoege yn 'e side. De XPath-query siket in formulier mei in ynfier mei in namme fan formidd, dan bewarret de ekstraksje de wearde:
XPath: //form/input[@name="formid"]/@value
Inline-styltags útpakke
Wy helpe in klant in side op te romjen wêr't se ynline-stilen brûkten op 'e Elementor-plugin om praktysk elk elemint mei in side oan te passen. Om te identifisearjen wêr't ynline-stilen waarden brûkt, hawwe wy de side skrast mei ferskate RegEx-regels foar oanpaste ekstraksje:
- Span Inline Style:
<span\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Anchor Tag Inline Style:
<a\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Div Tag Inline Style:
<div\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Heading Tag Inline Style:
<h+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
Exclusions
At Martech Zone, wy tsjinje de side yn meardere talen op ferskate subdomeinen. It crawljen fan dizze oersettingen is net nedich, om't alle aktiva en ynformaasje basearre binne op 'e kearnside. Hjirtroch hawwe wy de konfiguraasje fan list útslute ynskeakele en de folgjende regel tafoege:
.*\.martech.zone
Jo kinne dit ek brûke om oerslaan fan ûnnedige paden lykas tags oer te slaan troch ta te foegjen:
martech.zone/tag/.*
Wy wolle ek ús AMP-siden, dy't einigje op, net crawlje ?amp=1
,dus yn
https?://[^\s]+?\?amp=1
It platfoarm hat sels in moaie metoade om guon te testen URLs tsjin de regels om te soargjen dat se goed wurkje foardat jo jo side crawlje.
Screaming Frog SEO Spider JavaScript Rendering
In oare grutte opsje fan Screaming Frog is dat jo net beheind ta de HTML op 'e side kinne jo elk JavaScript werjaan dat formulieren yn jo side sil ynfoegje. Binnen Konfiguraasje> Spider, kinne jo gean nei it tabblêd Rendering en dit ynskeakelje.
Dit duorret fansels wat langer om de side te crawljen, mar jo krije formulieren dy't client-side wurde werjûn troch JavaScript, lykas formulieren dy't server-side binne ynfoege.
Hoewol dit in heul spesifike applikaasje is, is it in ûnbidich nuttige applikaasje as jo mei grutte siden wurkje. Jo wolle perfoarst kontrolearje wêr't jo formulieren binne ynbêde troch de side.
Download Screaming Frog SEO Spider
Disclosure: Martech Zone brûkt syn affiliate keppelings yn dit artikel.