Ștergeți codul html din stiluri. Curățarea automată a codului HTML din „gunoi”. Formate acceptate pentru conversia online

O zi bună, dragi cititori! Sper că vă descurcați la fel de bine ca noi - soarele strălucește, păsările cântă, este cald și a venit vara! Încă lucrez la disertație, așa că în ultima lună și jumătate scriu doar o dată pe săptămână, fizic nu am timp. Dar să nu vorbim despre lucruri triste, să trecem la treabă!

Cândva, căutam pe internet să găsesc un script care să curețe codul HTML de gunoi, care, în special, ne lasă pe toți „iubiți” în acest sens, Microsoft Word. Anterior am folosit Curățarea codului folosind Adobe Dreamweaver dar avea doua dezavantaje:

    Uneori nu curăță tot ce ne-am dori.

    Dacă există o cantitate foarte mare de cod, scriptul de curățare afișează o eroare.

Al doilea punct a devenit critic pentru mine, din moment ce a trebuit să lucrez cu tabele html mari, de la care era imposibil să mă îndepărtez de un site și au furnizat toate informațiile în Word.

Astfel, după ce m-am plimbat îndelung pe Internet, am găsit un script care face față cu brio la toată această gestiune și, în același timp, este complet personalizabil.

Excel/Word to HTML este un instrument ideal pentru editarea codului sursă al articolelor WordPress sau al oricărui alt sistem de gestionare a conținutului atunci când compozitorul lor încorporat nu oferă toate funcțiile de care avem nevoie. Compuneți conținut direct în fereastra browserului fără a instala o extensie sau un plugin pentru a gestiona evidențierea sintaxei și alte funcții de editare a textului.

Cum se utilizează?

Lipiți documentul pe care doriți să îl convertiți în editorul Word, apoi accesați vizualizatorul HTML folosind filele mari din partea de sus a paginii pentru a genera codul.

Curățați marcajul murdar cu un buton mare care execută opțiunile active (bifate) dintr-o listă. De asemenea, puteți aplica aceste funcții una câte una folosind pictograma CLEAN.

Probleme de conversie care sunt ușor de rezolvat prin convertorul nostru HTML online

Problema conversiei cuvântului în html a existat probabil întotdeauna împreună cu Microsoft Word. Un număr mare de stiluri atribuite textelor, cum ar fi mso-spacerun:yes, și clase, cum ar fi MsoNormal, precum și o aglomerație de tot felul de span style="font-size:10.0pt" aglomera foarte mult codul. Și adesea întrerup stilurile native specificate în site. Dacă încă puteți gestiona text simplu inserând text prin butonul „Inserați doar text” al editorului, atunci această metodă nu va funcționa cu tabelele. Convertorul nostru poate curăța cu ușurință orice comentarii și stiluri inutile din viitorul fișier html, făcând simplu clic pe butoane.


Curățarea online a HTML-ului de stilurile CSS inutile
  • Eliminați orice stiluri inutile din tot textul sau dintr-un fragment selectat
  • Eliminam codurile de indentare, simbolurile și alte coduri Unicode inutile
  • Curăță codul de spații suplimentare și etichete duplicate
  • Dacă este necesar, eliminați complet marcajul HTML.

Convertiți fișierele Word, Excel, TxT în cod sursă HTML curat. Fără stiluri și comentarii inutile pentru inserarea directă și corectă în paginile site-ului.

Formate acceptate pentru conversia online:

  • 97–2004 și mai nou DOC în HTML, DOCX în HTML;
  • XLS în HTML, XLSX în HTML;
  • PPT în HTML, PPTX în HTML;
  • TXT în HTML și multe alte formate.

O altă utilizare utilă a serviciului, în loc să petreceți ore întregi făcând un tabel în HTML, faceți-l în 15 minute în Excel sau Word și convertiți-l într-un cod HTML curat și frumos pentru inserarea în site.

Buna ziua!

Când scriam propriul meu editor WYSIWYG, am întâmpinat o problemă la copierea textului din Word. Există de fapt trei probleme:

  • Word inserează o mulțime de cod html nedorit care trebuie curățat
  • Din anumite motive, Word folosește paragrafe în loc de etichete UL și LI pentru a prezenta liste
  • De fapt, cum să determinați că textul inserat este inserat din Word.
În general, pentru a rezolva aceste probleme, a fost scris un plugin jquery, al cărui cod sursă complet este disponibil la sfârșitul articolului. Exemplu de utilizare:

$('#editor'). msword_html_filter();
Pluginul este suspendat la un eveniment tastareși verifică dacă codul sursă din editor este lipit din Word, atunci funcția de curățare este lansată. În html-ul rezultat, se adaugă tot ceea ce este posibil - spații care nu se rup, atribute stilȘi alinia, Etichete span, Toate Mso-clase, paragrafe goale.

Detalii de implementare sub tăietură.

Majoritatea obișnuiților utilizați au fost preluați de la TinyMCE.

Cum să determinați dacă o linie conține cod html inserat din Word:

Dacă (/class="?Mso|style="[^"]*\bmso-|style="[^""]*\bmso-|w:WordDocument/i.test(conținut)) ( ... )

Funcția de curățare a codului (un obiect editor jquery este transmis funcției):

Funcția word_filter(editor)( var content = editor.html(); // Comentarii în cuvinte precum comentarii condiționate etc. content = content.replace(/<(!|script[^>]*>.*?<\/script(?=[>\s])|\/?(\?xml(:\w+)?|img|meta|link|style|\w:\w+)(?=[\s\/>]))[^>]* >>gi, ""); // Convert în <(\/?)s>/gi,"<$1strike> ___ ([\s\u00a0]*)<\/span>/gi, function(str, spatii) ( return (spaces.length > "; if (/^\s*\w+\./.test(txt))) (var potriviri = /()\./.exec(txt ); if (potriviri) ( var start = parseInt(potrivește, 10); list_tag = start>1 ? "" : ""; )else( list_tag = ""; ) ) if(cur_level> " + $(this).html() + "") $(this).remove(); last_level = cur_level; )else( last_level = 0; ) )) $("", editor).removeAttr("stil"); $("", editor).removeAttr( "align"); $("span", editor).replaceWith(function() (return $(this).contents();)); $("span:empty", editor). , editor).removeAttr("clasa"); $("p:gol", editor).remove();

Textul sursă complet al pluginului se află sub spoiler, salvați într-un fișier jquery.msword_html_filter.js

textul sursă al pluginului

(function($) ( $.fn.msword_html_filter = function(options)) (var settings = $.extend((), options); function word_filter(editor)( var content = editor.html(); // Comentarii de cuvinte precum comentarii condiționate etc conținut = content.replace(//gi, ""); // Eliminați comentariile, scripturile (de exemplu, msoShowComment), eticheta XML, conținutul VML, // etichetele cu spațiu de nume MS Office și alte câteva etichete content = content.replace(/<(!|script[^>]*>.*?<\/script(?=[>\s])|\/?(\?xml(:\w+)?|img|meta|link|style|\w:\w+)(?=[\s\/>]))[^>]* >>gi, ""); // Convert în pentru line-though content = content.replace(/<(\/?)s>/gi,"<$1strike>"); // Înlocuiește entitățile nbsp cu char, deoarece este mai ușor de gestionat //content = content.replace(/ /gi, "\u00a0"); continut = content.replace(/ /gi, " "); // Convert ___ la șir de spații alternante // întrerupte/nedespărțitoare de aceeași lungime conținut = content.replace(/ ([\s\u00a0]*)<\/span>/gi, function(str, spatii) ( return (spaces.length > 0) ? spaces.replace(/./, " ").slice(Math.floor(spaces.length/2)).split("") .join("\u00a0"): "" )); editor.html(conținut); // Analizați nivelul de indentare a listei pentru liste $("p", editor).each(function())( var str = $(this).attr("style"); var potriviri = /mso-list:\w+ \ w+(+)/.exec(str) if (potriviri) ( $(this).data("_listLevel", parseInt(match, 10)); ) ); // Parse Lists var last_level=0; var pnt = null; $("p", editor).each(function())( var cur_level = $(this).data("_listLevel"); if(cur_level != undefined)( var txt = $(this).text() ; var list_tag = ""; if (/^\s*\w+\./.test(txt)) (var potrivește = /()\./.exec(txt); if (potrivește) (var start = parseInt ( se potrivește, 10 list_tag = start>1 ? "" : "" ) = $(this). cur_level " + $(this).html() + "") $(this).remove(); last_level = cur_level; )else( last_level = 0; ) )) $("", editor).removeAttr("stil"); $("", editor).removeAttr( "align"); $("span", editor).replaceWith(function() (return $(this).contents();)); $("span:empty", editor). , editor).removeAttr("clasa"); $("p:vide", editor).remove(); var content = $(this).html(); if (/class="?Mso|style="[^"]*\bmso-|style="[^""]*\bmso-|w :WordDocument/ i.test(conținut)) ( filtru_cuvânt($(acest)); ) ));


Performanța a fost testată numai în cel mai recent Firefox.

Cleaner este un serviciu de curățare a etichetelor din „gunoi” care rămâne în document după salvarea paginii în formatul din program.

Cu mult timp în urmă am scris un plugin similar, dar a fost făcut în grabă, acum mecanismul a fost rescris complet.

Curățarea codului are loc prin căutarea prin linia introdusă din care se formează una nouă, care conține un „curat” . Pluginul elimină absolut totul din etichete, inclusiv . În etichetele nepereche, este inserat simbolul / (slash). Etichetele goale sunt eliminate, de exemplu constructul va fi șters deoarece nu conține nimic.

Cum funcționează html cleaner?

Există două moduri:

  1. În MS Word, selectați datele pe care doriți să le ștergeți, pentru a le selecta pe toate, apăsați Ctrl + A. Lipiți textul copiat în câmpul de mai jos (trebuie selectată fila „Lipiți date MS Office”), faceți clic pe butonul „Terminare”.
  2. Înainte de a optimiza codul, selectați „Salvare ca...” în Word, apoi selectați tipul de fișier „Pagină web cu filtru”, apoi deschideți fișierul salvat într-un editor de text, copiați codul și inserați-l în câmpul de mai jos ( Fila „Inserare HTML” trebuie selectată "), faceți clic pe butonul „Terminat”.

Ca rezultat, veți primi cod html impecabil.
Următoarele atribute rămân neatinse:

„colspan”, „rowspan”, „href”, „src”, „type”, „value”, „lang”, „tabindex”, „title”, „code”, „alt”, „target”, „dir „, „interval”, „acțiune”, „metodă”

Scăpați de marcajul murdar cu programul gratuit de curățare HTML online. Este foarte ușor să compuneți, editați, formatați și minimizați codul web cu acest instrument online. Conversia documentelor Word în HTML ordonat și orice alte documente vizuale precum Excel, PDF, Google Docs etc. Este extrem de simplu și eficient să lucrezi cu cei doi editor vizual și sursă atașați, care răspunde instantaneu la acțiunile tale.

HTML Cleaner este echipat cu multe funcții utile pentru a face curățarea și editarea HTML cât mai ușoară posibil. Doar lipiți codul în zona de text, configurați preferințele de curățare și apăsați tasta HTML curat buton. Poate gestiona orice document creat cu Microsoft Excel, PowerPoint, Google docs sau orice alt compozitor. Vă ajută să scăpați cu ușurință de toate stilurile inline și codurile inutile care sunt adăugate de Microsoft Word sau de alți editori WYSIWYG. Acest instrument de editor HTML este util atunci când migrați conținutul de la un site web la altul și doriți să curățați toate clasele extraterestre și ID-urile pe care le aplică site-ul sursă. Utilizați instrumentul de căutare și înlocuire pentru comenzile dvs. personalizate. Generatorul de text fals vă permite să adăugați cu ușurință text fals în editor.

În partea de sus a paginii, puteți vedea editorul vizual și editorul de cod sursă unul lângă celălalt. Indiferent ce modificați, modificările se vor reflecta asupra celuilalt în timp real. Editorul vizual HTML permite începătorilor să-și compună cu ușurință conținutul, la fel ca atunci când folosesc orice alt program de procesare de text, în timp ce în dreapta editorul sursă cu marcaj de cod evidențiat îi ajută pe utilizatorii avansați să ajusteze codul. Acest lucru face din acest program online un instrument frumos pentru a învăța codarea HTML.

Conversia documentelor Word în HTML curat

Pentru a publica online PDF-uri, Microsoft Word, Excel, PowerPoint sau orice alte documente compuse cu diferite programe de editor de cuvinte sau doar pentru a copia conținutul copiat de pe un alt site web, lipiți conținutul formatat în editorul vizual. Sursa HTML a documentului va fi imediat vizibilă și în editorul sursei. Bara de control de deasupra editorului WYSIWYG controlează acest câmp, în timp ce toate celelalte setări de curățare sursă sunt pentru editarea codului sursă. Apasă pe HTML curat butonul după configurarea preferințelor de curățare. Copiați codul curățat și publicați-l pe site-ul dvs. web.

Nu există nicio garanție că programul corectează toate erorile din codul dvs. exact așa cum doriți, așa că vă rugăm să încercați să introduceți un HTML valid din punct de vedere sintactic.

Convertiți tabelele HTML în elemente div structurate activând caseta de selectare corespunzătoare.

Curățați codul HTML din etichetele Microsoft Word (2000-2007)?

În trecut, designerii web obișnuiau să-și construiască site-urile web folosind tabele pentru a organiza aspectul paginii, dar în era designului web receptiv, tabelele sunt depășite și DIV-urile le iau locul. Acest instrument online vă ajută să vă transformați tabelele în elemente div structurate cu câteva clicuri simple.

Puteți face codul sursă mai ușor de citit prin organizarea ierarhiei file într-o vizualizare arborescentă.

Deveni un membru

Acest site web este un instrument complet funcțional pentru curățarea și compunerea codului HTML, dar aveți posibilitatea să achiziționați un abonament HTML G și să accesați și mai multe funcții profesionale. Folosind versiunea gratuită a HTML Cleaner, sunteți de acord să includeți linkuri în documentele editate. Acest instrument de curățare ar putea adăuga un link promoțional terță parte la sfârșitul documentelor curățate și trebuie să lăsați acest cod neschimbat atâta timp cât utilizați versiunea gratuită.