From 03dcf928febd66f42f353c85bfb544ab6a8b5759 Mon Sep 17 00:00:00 2001 From: Niki Roo Date: Wed, 26 Sep 2018 21:13:51 +0200 Subject: [PATCH] SeptSurSept: fix title/intro encoding issues --- src/be/nikiroo/gofetch/support/SeptSurSept.java | 15 +++++++++++++-- test/expected/SEPT_SUR_SEPT/0002919270.header | 6 +++--- .../expected/SEPT_SUR_SEPT/0002919270.header.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919272.header | 6 +++--- .../expected/SEPT_SUR_SEPT/0002919272.header.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919283.header | 4 ++-- .../expected/SEPT_SUR_SEPT/0002919283.header.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919291 | 2 +- test/expected/SEPT_SUR_SEPT/0002919291.header | 4 ++-- .../expected/SEPT_SUR_SEPT/0002919291.header.html | 4 ++-- test/expected/SEPT_SUR_SEPT/0002919291.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919293 | 2 +- test/expected/SEPT_SUR_SEPT/0002919293.header | 8 ++++---- .../expected/SEPT_SUR_SEPT/0002919293.header.html | 4 ++-- test/expected/SEPT_SUR_SEPT/0002919293.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919294 | 4 ++-- test/expected/SEPT_SUR_SEPT/0002919294.header | 6 +++--- .../expected/SEPT_SUR_SEPT/0002919294.header.html | 4 ++-- test/expected/SEPT_SUR_SEPT/0002919294.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919296 | 3 +-- test/expected/SEPT_SUR_SEPT/0002919296.header | 4 ++-- .../expected/SEPT_SUR_SEPT/0002919296.header.html | 4 ++-- test/expected/SEPT_SUR_SEPT/0002919296.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919297.header | 4 ++-- .../expected/SEPT_SUR_SEPT/0002919297.header.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919298.header | 4 ++-- .../expected/SEPT_SUR_SEPT/0002919298.header.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919301 | 2 +- test/expected/SEPT_SUR_SEPT/0002919301.header | 6 +++--- .../expected/SEPT_SUR_SEPT/0002919301.header.html | 4 ++-- test/expected/SEPT_SUR_SEPT/0002919301.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919304 | 2 +- test/expected/SEPT_SUR_SEPT/0002919304.header | 6 +++--- .../expected/SEPT_SUR_SEPT/0002919304.header.html | 4 ++-- test/expected/SEPT_SUR_SEPT/0002919304.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919311.header | 6 +++--- .../expected/SEPT_SUR_SEPT/0002919311.header.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919312.header | 2 +- .../expected/SEPT_SUR_SEPT/0002919312.header.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919314 | 2 +- test/expected/SEPT_SUR_SEPT/0002919314.header | 6 +++--- .../expected/SEPT_SUR_SEPT/0002919314.header.html | 4 ++-- test/expected/SEPT_SUR_SEPT/0002919314.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919315.header | 4 ++-- .../expected/SEPT_SUR_SEPT/0002919315.header.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919316 | 2 +- test/expected/SEPT_SUR_SEPT/0002919316.header | 6 +++--- .../expected/SEPT_SUR_SEPT/0002919316.header.html | 4 ++-- test/expected/SEPT_SUR_SEPT/0002919316.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919318 | 4 ++-- test/expected/SEPT_SUR_SEPT/0002919318.header | 6 +++--- .../expected/SEPT_SUR_SEPT/0002919318.header.html | 4 ++-- test/expected/SEPT_SUR_SEPT/0002919318.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919320 | 3 +-- test/expected/SEPT_SUR_SEPT/0002919320.header | 6 +++--- .../expected/SEPT_SUR_SEPT/0002919320.header.html | 4 ++-- test/expected/SEPT_SUR_SEPT/0002919320.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919324.header | 6 +++--- .../expected/SEPT_SUR_SEPT/0002919324.header.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919326.header | 2 +- .../expected/SEPT_SUR_SEPT/0002919326.header.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919340 | 2 +- test/expected/SEPT_SUR_SEPT/0002919340.header | 8 ++++---- .../expected/SEPT_SUR_SEPT/0002919340.header.html | 4 ++-- test/expected/SEPT_SUR_SEPT/0002919340.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919343 | 4 ++-- test/expected/SEPT_SUR_SEPT/0002919343.header | 6 +++--- .../expected/SEPT_SUR_SEPT/0002919343.header.html | 4 ++-- test/expected/SEPT_SUR_SEPT/0002919343.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919344.header | 4 ++-- .../expected/SEPT_SUR_SEPT/0002919344.header.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919345.header | 6 +++--- .../expected/SEPT_SUR_SEPT/0002919345.header.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919349.header | 4 ++-- .../expected/SEPT_SUR_SEPT/0002919349.header.html | 2 +- test/expected/SEPT_SUR_SEPT/0002919352 | 4 ++-- test/expected/SEPT_SUR_SEPT/0002919352.header | 4 ++-- .../expected/SEPT_SUR_SEPT/0002919352.header.html | 4 ++-- test/expected/SEPT_SUR_SEPT/0002919352.html | 2 +- 79 files changed, 149 insertions(+), 140 deletions(-) diff --git a/src/be/nikiroo/gofetch/support/SeptSurSept.java b/src/be/nikiroo/gofetch/support/SeptSurSept.java index d44d331..cec51ce 100644 --- a/src/be/nikiroo/gofetch/support/SeptSurSept.java +++ b/src/be/nikiroo/gofetch/support/SeptSurSept.java @@ -1,7 +1,9 @@ package be.nikiroo.gofetch.support; import java.io.IOException; +import java.io.UnsupportedEncodingException; import java.net.URL; +import java.net.URLDecoder; import java.util.AbstractMap; import java.util.ArrayList; import java.util.List; @@ -64,7 +66,11 @@ public class SeptSurSept extends BasicSupport { @Override protected String getArticleTitle(Document doc, Element article) { - return article.attr("data-title"); + try { + return URLDecoder.decode(article.attr("data-title"), "UTF-8"); + } catch (UnsupportedEncodingException e) { + throw new RuntimeException("UTF-8 support mandatory in JVM"); + } } @Override @@ -108,7 +114,12 @@ public class SeptSurSept extends BasicSupport { @Override protected String getArticleContent(Document doc, Element article) { - return article.attr("data-intro").trim(); + try { + return URLDecoder.decode(article.attr("data-intro"), "UTF-8") + .trim(); + } catch (UnsupportedEncodingException e) { + throw new RuntimeException("UTF-8 support mandatory in JVM"); + } } @Override diff --git a/test/expected/SEPT_SUR_SEPT/0002919270.header b/test/expected/SEPT_SUR_SEPT/0002919270.header index 8b88589..6662a65 100644 --- a/test/expected/SEPT_SUR_SEPT/0002919270.header +++ b/test/expected/SEPT_SUR_SEPT/0002919270.header @@ -1,7 +1,7 @@ 0Surpris avec une autre femme, Shia LaBeouf demande le divorce null/SEPT_SUR_SEPT/0002919270 70 i [People] 26-09-2018 13:27 i -i FKA twigs est l%27ancienne fiancée de l%27acteur Robert -i Pattinson, la star de %27Twilight%27. La nouvelle a été rendue -i publique par le manager de ... +i FKA twigs est l'ancienne fiancée de l'acteur Robert Pattinson, +i la star de 'Twilight'. La nouvelle a été rendue publique par +i le manager de ... i diff --git a/test/expected/SEPT_SUR_SEPT/0002919270.header.html b/test/expected/SEPT_SUR_SEPT/0002919270.header.html index 1a3126c..bcd3b6e 100644 --- a/test/expected/SEPT_SUR_SEPT/0002919270.header.html +++ b/test/expected/SEPT_SUR_SEPT/0002919270.header.html @@ -13,7 +13,7 @@
([People] 26-09-2018 13:27)

- FKA twigs est l%27ancienne fiancée de l%27acteur Robert Pattinson, la star de %27Twilight%27. La nouvelle a été rendue publique par le manager de ... + FKA twigs est l'ancienne fiancée de l'acteur Robert Pattinson, la star de 'Twilight'. La nouvelle a été rendue publique par le manager de ...

diff --git a/test/expected/SEPT_SUR_SEPT/0002919272.header b/test/expected/SEPT_SUR_SEPT/0002919272.header index 4e7dd41..979ede0 100644 --- a/test/expected/SEPT_SUR_SEPT/0002919272.header +++ b/test/expected/SEPT_SUR_SEPT/0002919272.header @@ -1,7 +1,7 @@ 0Un béluga aperçu dans la Tamise, à 50km de Londres null/SEPT_SUR_SEPT/0002919272 70 i [Espèces Menacées] 26-09-2018 13:15 i -i Un béluga, cétacé habituellement observé dans l%27océan -i Arctique, a été aperçu dans la Tamise, provoquant -i l%27inquiétude des défenseurs de ... +i Un béluga, cétacé habituellement observé dans l'océan +i Arctique, a été aperçu dans la Tamise, provoquant l'inquiétude +i des défenseurs de ... i diff --git a/test/expected/SEPT_SUR_SEPT/0002919272.header.html b/test/expected/SEPT_SUR_SEPT/0002919272.header.html index 4d87e60..0c1038d 100644 --- a/test/expected/SEPT_SUR_SEPT/0002919272.header.html +++ b/test/expected/SEPT_SUR_SEPT/0002919272.header.html @@ -13,7 +13,7 @@
([Espèces Menacées] 26-09-2018 13:15)

- Un béluga, cétacé habituellement observé dans l%27océan Arctique, a été aperçu dans la Tamise, provoquant l%27inquiétude des défenseurs de ... + Un béluga, cétacé habituellement observé dans l'océan Arctique, a été aperçu dans la Tamise, provoquant l'inquiétude des défenseurs de ...

diff --git a/test/expected/SEPT_SUR_SEPT/0002919283.header b/test/expected/SEPT_SUR_SEPT/0002919283.header index cbfa2e6..f4db2b7 100644 --- a/test/expected/SEPT_SUR_SEPT/0002919283.header +++ b/test/expected/SEPT_SUR_SEPT/0002919283.header @@ -2,6 +2,6 @@ i [Bruxelles] 26-09-2018 12:56 i i Le procès en appel de Sonja T.M. débutera jeudi à la 12e -i chambre de la cour d%27appel de Bruxelles. En première -i instance, cette femme âgée de 38 ... +i chambre de la cour d'appel de Bruxelles. En première instance, +i cette femme âgée de 38 ... i diff --git a/test/expected/SEPT_SUR_SEPT/0002919283.header.html b/test/expected/SEPT_SUR_SEPT/0002919283.header.html index 3686f8e..f1ce5d4 100644 --- a/test/expected/SEPT_SUR_SEPT/0002919283.header.html +++ b/test/expected/SEPT_SUR_SEPT/0002919283.header.html @@ -13,7 +13,7 @@
([Bruxelles] 26-09-2018 12:56)

- Le procès en appel de Sonja T.M. débutera jeudi à la 12e chambre de la cour d%27appel de Bruxelles. En première instance, cette femme âgée de 38 ... + Le procès en appel de Sonja T.M. débutera jeudi à la 12e chambre de la cour d'appel de Bruxelles. En première instance, cette femme âgée de 38 ...

diff --git a/test/expected/SEPT_SUR_SEPT/0002919291 b/test/expected/SEPT_SUR_SEPT/0002919291 index 32b24ac..9ec73b3 100644 --- a/test/expected/SEPT_SUR_SEPT/0002919291 +++ b/test/expected/SEPT_SUR_SEPT/0002919291 @@ -1,4 +1,4 @@ - UN VAGABOND SOUPÇONNÉ D%27UN DOUBLE MEURTRE À LA HACHE EN FRANCE + UN VAGABOND SOUPÇONNÉ D'UN DOUBLE MEURTRE À LA HACHE EN FRANCE [Monde] 26-09-2018 14:51 diff --git a/test/expected/SEPT_SUR_SEPT/0002919291.header b/test/expected/SEPT_SUR_SEPT/0002919291.header index 5e87560..94663d6 100644 --- a/test/expected/SEPT_SUR_SEPT/0002919291.header +++ b/test/expected/SEPT_SUR_SEPT/0002919291.header @@ -1,7 +1,7 @@ -0Un vagabond soupçonné d%27un double meurtre à la hache en France null/SEPT_SUR_SEPT/0002919291 70 +0Un vagabond soupçonné d'un double meurtre à la hache en France null/SEPT_SUR_SEPT/0002919291 70 i [Monde] 26-09-2018 14:51 i -i Un vagabond espagnol, soupçonné d%27un double meurtre perpétré +i Un vagabond espagnol, soupçonné d'un double meurtre perpétré i en juin dans le sud de la France, a été inculpé et écroué, i a-t-on appris mercredi ... i diff --git a/test/expected/SEPT_SUR_SEPT/0002919291.header.html b/test/expected/SEPT_SUR_SEPT/0002919291.header.html index 47af326..73c760d 100644 --- a/test/expected/SEPT_SUR_SEPT/0002919291.header.html +++ b/test/expected/SEPT_SUR_SEPT/0002919291.header.html @@ -9,11 +9,11 @@
-

Un vagabond soupçonné d%27un double meurtre à la hache en France

+

Un vagabond soupçonné d'un double meurtre à la hache en France

([Monde] 26-09-2018 14:51)

- Un vagabond espagnol, soupçonné d%27un double meurtre perpétré en juin dans le sud de la France, a été inculpé et écroué, a-t-on appris mercredi ... + Un vagabond espagnol, soupçonné d'un double meurtre perpétré en juin dans le sud de la France, a été inculpé et écroué, a-t-on appris mercredi ...

diff --git a/test/expected/SEPT_SUR_SEPT/0002919291.html b/test/expected/SEPT_SUR_SEPT/0002919291.html index 181ff0b..1caab7c 100644 --- a/test/expected/SEPT_SUR_SEPT/0002919291.html +++ b/test/expected/SEPT_SUR_SEPT/0002919291.html @@ -9,7 +9,7 @@
-

Un vagabond soupçonné d%27un double meurtre à la hache en France

+

Un vagabond soupçonné d'un double meurtre à la hache en France

([Monde] 26-09-2018 14:51)