Trochę pogrzebałem. Dajmy na to mam przykładowy tekst:
<tbody>
<tr style="mso-yfti-irow:0;mso-yfti-firstrow:yes">
<td rowspan="2" style="width:23.45pt;border:solid windowtext 1.5pt;
padding:0cm 0cm 0cm 0cm" valign="top" width="39">
<p class="MsoNormal" style="mso-margin-top-alt:auto;margin-bottom:
0cm;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><b><span style="font-size:9.0pt;font-family:"Times New Roman","serif";mso-fareast-font-family:
"Times New Roman";mso-fareast-language:PL">Lekcja</span></b></p>
Do tego regex:
[>](.*)[<\/span>]
I to łapie mi to:
><b><span style="font-size:9.0pt;font-family:"Times New Roman","serif";mso-fareast-font-f
i
>Lek</span></b></p>
Jak go poprawić, żeby łapał poprawnie
Testuje sobie na tej stronce: https://regex101.com/
Co do parsera. Spoko, ale ja najpierw chce regexem, bo tak