#21 Tech Writer zbiera informacje ze stron, czyli jak można wykorzystać web scraping

32:54
 
Udostępnij
 

Manage episode 272076753 series 2508014
Stworzone przez Doc Developer, odkryte przez Player FM i naszą społeczność - prawa autorskie są własnością wydawcy, a nie Player FM, a dzwięk jest przesyłany bezpośrednio z ich serwerów. Naciśnij przycisk Subskrybuj, aby śledzić aktualizacje Player FM, lub wklej adres URL kanału do innych aplikacji podcastowych.

Web scraping to zbieranie danych ze stron internetowych. Google, na przykład, robi to, żeby indeksować cały internet w swojej wyszukiwarce. Web scraping wykorzystuje się też do monitorowania cen w konkurencyjnych sklepach internetowych.

U nas w firmie używamy web scrapingu, żeby indeksować dokumentację dla naszej wyszukiwarki. To samo rozwiązanie wykorzystujemy też, żeby sprawdzać czy wszystkie linki działają. Wyniki web scrapingu zapisujemy w Elasticsearchu, a potem analizujemy je za pomocą raportów i filtrów w Kibanie. Dzięki temu stworzyliśmy zalążek panelu kontrolnego, na którym widać aktualną jakość naszej dokumentacji.

W niedalekiej przyszłości chcemy rozszerzyć nasze rozwiązanie o dodatkowe funkcje. Planujemy, na przykład, testować strony pod kątem wymaganych elementów i zgodności z regułami naszego style guide’a. Kolejną opcją jest sprawdzanie czy w treści nie ma błędów gramatycznych i stylistycznych oraz czy język, którego używamy do tworzenia instrukcji jest wystarczająco przejrzysty.

Co można jeszcze zrobić za pomocą web scrapingu? Jakie inne testy są potrzebne w świecie dokumentacji technicznej i pisania ustrukturyzowanego? Zapraszamy do słuchania.

Informacje dodatkowe:

Web scraping: https://en.wikipedia.org/wiki/Web_scraping

Scrapy: https://scrapy.org/

Elastic (Elasticsearch, Kibana): https://www.elastic.co/

curl: https://curl.haxx.se/

Textstat: https://github.com/shivam5992/textstat

spaCy: https://spacy.io/

Selenium: https://www.selenium.dev/

TestCafe: https://devexpress.github.io/testcafe/

Vale: https://github.com/errata-ai/vale

23 odcinków