Hey again,
Thanks for your answer, got it!
I changed the last part of your code to this:
// clean-up -- probably don't want this in your script!!
foreach($data as $paragraph => $lines) {
unlink($paragraph);
$lines = preg_replace('/<p class="normal">(.*?)<\/p>/', '$1', $lines);
file_put_contents($paragraph.'.txt', implode(PHP_EOL, $lines));
}
That should remove p with class=normal from the output, and it works fine in some cases and in some not.
here's the part of the html:
<p class="title"><a id="str_105" name="str_105"></a>Neovlašćeno prisluškivanje i snimanje </p>
<p class="number"><a id="clan_143" name="clan_143"></a>Član 143 </p>
<p class="normal">(1) Ko posebnim uređajima neovlašćeno prisluškuje ili snima razgovor, izjavu ili kakvo saopštenje koji mu nisu namenjeni,<br>
kazniće se novčanom kaznom ili zatvorom od tri meseca do tri godine.
</p>
<p class="normal">(2) Kaznom iz stava 1. ovog člana kazniće se i ko omogući nepozvanom licu da se upozna sa razgovorom, izjavom ili saopštenjem koji su neovlašćeno prisluškivani, odnosno tonski snimani. </p>
<p class="normal">(3) Ako je delo iz st. 1. i 2. ovog člana učinilo službeno lice u vršenju službe,<br>
kazniće se zatvorom od šest meseci do pet godina.
</p>
And here's what i have as output in txt file:
<p class="normal">(1) Ko posebnim uređajima neovlašćeno prisluškuje ili snima razgovor, izjavu ili kakvo saopštenje koji mu nisu namenjeni,<br>
(2) Kaznom iz stava 1. ovog člana kazniće se i ko omogući nepozvanom licu da se upozna sa razgovorom, izjavom ili saopštenjem koji su neovlašćeno prisluškivani, odnosno tonski snimani.
<p class="normal">(3) Ako je delo iz st. 1. i 2. ovog člana učinilo službeno lice u vršenju službe,<br>
However in this example it works fine:
<p class="title"><a id="str_12" name="str_12"></a>Važenje krivičnog zakonodavstva Srbije za stranca koji učini krivično delo u inostranstvu </p>
<p class="number"><a id="clan_9" name="clan_9"></a>Član 9 </p>
<p class="normal">(1) Krivično zakonodavstvo Srbije važi i za stranca koji van teritorije Srbije učini prema njoj ili njenom državljaninu krivično delo i kad nisu u pitanju krivična dela navedena u članu 7. ovog zakonika, ako se zatekne na teritoriji Srbije ili bude izručen Srbiji. </p>
<p class="normal">(2) Krivično zakonodavstvo Srbije važi i za stranca koji prema stranoj državi ili prema strancu učini u inostranstvu krivično delo za koje se po zakonu zemlje u kojoj je učinjeno može izreći kazna zatvora od pet godina ili teža kazna, ako se zatekne na teritoriji Srbije, a ne bude izručen stranoj državi. Ako ovim zakonikom nije drukčije određeno, sud u takvom slučaju ne može izreći težu kaznu od one koja je propisana zakonom zemlje u kojoj je krivično delo učinjeno. </p>
Output in file:
(1) Krivično zakonodavstvo Srbije važi i za stranca koji van teritorije Srbije učini prema njoj ili njenom državljaninu krivično delo i kad nisu u pitanju krivična dela navedena u članu 7. ovog zakonika, ako se zatekne na teritoriji Srbije ili bude izručen Srbiji.
(2) Krivično zakonodavstvo Srbije važi i za stranca koji prema stranoj državi ili prema strancu učini u inostranstvu krivično delo za koje se po zakonu zemlje u kojoj je učinjeno može izreći kazna zatvora od pet godina ili teža kazna, ako se zatekne na teritoriji Srbije, a ne bude izručen stranoj državi. Ako ovim zakonikom nije drukčije određeno, sud u takvom slučaju ne može izreći težu kaznu od one koja je propisana zakonom zemlje u kojoj je krivično delo učinjeno.
I think that it will remove P tag if the whole paragraph is in one line, and if it's divided it won't. Also there's that <br> tag that should be removed. I also noticed that content after the <br> tag is cut-off and the content is not showed.