Uvezite podatke iz PDF-a u Excel putem Power Queryja

Zadatak prijenosa podataka iz proračunske tablice u PDF datoteci u Microsoft Excel list uvijek je „zabavan“. Pogotovo ako nemate skup softver za prepoznavanje kao što je FineReader ili nešto slično. Direktno kopiranje obično ne vodi ničemu dobrom, jer. nakon lijepljenja kopiranih podataka na list, oni će se najvjerovatnije "zalijepiti" u jednu kolonu. Tako da će se onda morati pažljivo razdvojiti pomoću alata Tekst po kolonama sa kartice podaci (Podaci — tekst u kolone).

I naravno, kopiranje je moguće samo za one PDF datoteke kod kojih postoji tekstualni sloj, odnosno kod dokumenta koji je tek skeniran sa papira u PDF, to u principu neće funkcionirati.

Ali nije tako tužno, zaista 🙂

Ako imate Office 2013 ili 2016, onda je za nekoliko minuta, bez dodatnih programa, sasvim moguće prenijeti podatke iz PDF-a u Microsoft Excel. A Word i Power Query će nam pomoći u tome.

Na primjer, uzmimo ovaj PDF izvještaj s gomilom teksta, formula i tabela sa web stranice Ekonomske komisije za Evropu:

Uvezite podatke iz PDF-a u Excel putem Power Queryja

… i pokušajte izvući iz njega u Excelu, recite prvu tablicu:

Uvezite podatke iz PDF-a u Excel putem Power Queryja

Idemo!

Korak 1. Otvorite PDF u Wordu

Iz nekog razloga, malo ljudi zna, ali od 2013. Microsoft Word je naučio otvarati i prepoznavati PDF datoteke (čak i one skenirane, odnosno bez tekstualnog sloja!). To se radi na potpuno standardan način: otvorite Word, kliknite Datoteka – Otvori (Datoteka — Otvori) i odredite PDF format u padajućoj listi u donjem desnom uglu prozora.

Zatim odaberite PDF datoteku koja nam je potrebna i kliknite otvoreno (Otvoreno). Word nam govori da će pokrenuti OCR na ovom dokumentu u tekst:

Uvezite podatke iz PDF-a u Excel putem Power Queryja

Slažemo se i za nekoliko sekundi vidjet ćemo naš PDF otvoren za uređivanje već u Wordu:

Uvezite podatke iz PDF-a u Excel putem Power Queryja

Naravno, dizajn, stilovi, fontovi, zaglavlja i podnožja itd. će djelimično odletjeti iz dokumenta, ali to za nas nije bitno – potrebni su nam samo podaci iz tabela. U principu, u ovoj fazi već je primamljivo jednostavno kopirati tabelu iz prepoznatog dokumenta u Word i jednostavno je zalijepiti u Excel. Ponekad to radi, ali češće dovodi do raznih vrsta izobličenja podataka – na primjer, brojevi se mogu pretvoriti u datume ili ostati tekst, kao u našem slučaju, jer. PDF koristi ne-separatore:

Uvezite podatke iz PDF-a u Excel putem Power Queryja

Dakle, nemojmo seći uglove, već sve malo zakomplikovati, ali ispravno.

Korak 2: Sačuvajte dokument kao web stranicu

Za učitavanje primljenih podataka u Excel (putem Power Queryja), naš dokument u Wordu treba sačuvati u formatu web stranice – ovaj format je, u ovom slučaju, neka vrsta zajedničkog nazivnika između Worda i Excela.

Da biste to učinili, idite na meni Datoteka – Sačuvaj kao (Datoteka — Sačuvaj kao) ili pritisnite tipku F12 na tastaturi iu prozoru koji se otvori izaberite vrstu datoteke Web stranica u jednom fajlu (Web stranica — jedan fajl):

Uvezite podatke iz PDF-a u Excel putem Power Queryja

Nakon spremanja, trebali biste dobiti datoteku sa ekstenzijom mhtml (ako vidite ekstenzije datoteka u Exploreru).

Faza 3. Učitavanje datoteke u Excel putem Power Queryja

Kreiranu MHTML datoteku možete otvoriti direktno u Excel-u, ali tada ćemo dobiti, prvo, sav sadržaj PDF-a odjednom, zajedno sa tekstom i gomilom nepotrebnih tabela, a drugo, opet ćemo izgubiti podatke zbog netačnih separatori. Stoga ćemo izvršiti uvoz u Excel preko Power Query dodatka. Ovo je potpuno besplatan dodatak s kojim možete uploadati podatke u Excel iz gotovo bilo kojeg izvora (datoteke, mape, baze podataka, ERP sistemi) i zatim transformirati primljene podatke na sve moguće načine, dajući im željeni oblik.

Ako imate Excel 2010-2013, onda možete preuzeti Power Query sa zvanične Microsoft web stranice – nakon instalacije vidjet ćete karticu power query. Ako imate Excel 2016 ili noviji, onda ne morate ništa preuzimati – sva funkcionalnost je već ugrađena u Excel po defaultu i nalazi se na kartici podaci (Datum) u grupi Preuzmite i pretvorite (Nabavi i transformiraj).

Dakle, idemo ili na karticu podaci, ili na kartici power query i izaberite tim Da dobijete podatke or Kreiraj upit – Iz datoteke – Iz XML-a. Da biste učinili vidljivim ne samo XML datoteke, promijenite filtere na padajućoj listi u donjem desnom uglu prozora u Svi dokumenti (Svi dokumenti) i navedite naš MHTML fajl:

Uvezite podatke iz PDF-a u Excel putem Power Queryja

Imajte na umu da se uvoz neće uspješno završiti, jer. Power Query od nas očekuje XML, ali mi zapravo imamo HTML format. Stoga, u sljedećem prozoru koji se pojavi, morat ćete kliknuti desnim tasterom miša na datoteku nerazumljivu za Power Query i odrediti njen format:

Uvezite podatke iz PDF-a u Excel putem Power Queryja

Nakon toga, datoteka će biti ispravno prepoznata i vidjet ćemo listu svih tabela koje sadrži:

Uvezite podatke iz PDF-a u Excel putem Power Queryja

Možete pogledati sadržaj tabela klikom na lijevu tipku miša na bijeloj pozadini (ne u riječi Tabela!) ćelija u koloni Podaci.

Kada je željena tabela definirana, kliknite na zelenu riječ sto – i „propadate“ u njegov sadržaj:

Uvezite podatke iz PDF-a u Excel putem Power Queryja

Ostaje napraviti nekoliko jednostavnih koraka kako biste "pročešljali" njegov sadržaj, i to:

  1. obrišite nepotrebne kolone (desni klik na zaglavlje kolone – ukloniti)
  2. zamijenite tačke zarezima (odaberite stupce, kliknite desnim tasterom miša – Zamjena vrijednosti)
  3. uklonite znake jednakosti u zaglavlju (odaberite kolone, kliknite desnim tasterom miša – Zamjena vrijednosti)
  4. uklonite gornju liniju (Početna – Izbriši linije – Izbriši gornje linije)
  5. uklonite prazne redove (Početna – Izbriši redove – Izbriši prazne redove)
  6. podignite prvi red do zaglavlja tabele (Početna – Koristite prvi red kao naslove)
  7. filtrirati nepotrebne podatke pomoću filtera

Kada se tabela dovede u normalan oblik, može se naredbom isprazniti na list zatvorite i preuzmite (Zatvori i učitaj) on Glavni tab. I dobićemo takvu lepotu sa kojom već možemo da radimo:

Uvezite podatke iz PDF-a u Excel putem Power Queryja

  • Transformacija kolone u tabelu pomoću Power Queryja
  • Dijeljenje ljepljivog teksta u kolone

Ostavite odgovor