Xóa mã html khỏi style. Tự động làm sạch mã HTML khỏi “rác”. Các định dạng được hỗ trợ để chuyển đổi trực tuyến

Chúc một ngày tốt lành, độc giả thân mến! Tôi hy vọng bạn cũng làm như chúng tôi - mặt trời chiếu sáng, chim hót, trời ấm áp và mùa hè đã đến! Tôi vẫn đang làm luận văn nên suốt tháng rưỡi qua tôi chỉ viết mỗi tuần một lần, thực sự tôi không có thời gian. Nhưng đừng nói chuyện buồn nữa, hãy bắt tay vào công việc thôi!

Ngày xửa ngày xưa, tôi đang tìm kiếm trên Internet một tập lệnh xóa mã HTML rác, đặc biệt, tập lệnh này khiến tất cả chúng ta “yêu quý” về mặt này, Microsoft Word. Trước đây tôi đã sử dụng Dọn dẹp mã bằng Adobe Dreamweaver nhưng anh ấy đã có hai nhược điểm:

    Đôi khi nó không làm sạch mọi thứ mà chúng ta mong muốn.

    Nếu có số lượng mã rất lớn, tập lệnh dọn dẹp sẽ báo lỗi.

Điểm thứ hai trở nên quan trọng đối với tôi, vì tôi phải làm việc với các bảng html lớn, từ đó không thể di chuyển khỏi một trang và chúng cung cấp tất cả thông tin trong Word.

Vì vậy, sau khi lang thang trên Internet một thời gian dài, tôi đã tìm thấy một tập lệnh có thể xử lý tất cả việc quản lý này một cách hiệu quả, đồng thời hoàn toàn có thể tùy chỉnh.

Excel/Word to HTML là một công cụ lý tưởng để chỉnh sửa mã nguồn của các bài viết WordPress hoặc bất kỳ hệ thống quản lý nội dung nào khác khi trình soạn thảo tích hợp của chúng không cung cấp tất cả các chức năng mà chúng tôi cần. Soạn nội dung trực tiếp trong cửa sổ trình duyệt của bạn mà không cần cài đặt tiện ích mở rộng hoặc plugin để xử lý việc đánh dấu cú pháp và các tính năng chỉnh sửa văn bản khác.

Làm thế nào để sử dụng?

Dán tài liệu bạn muốn chuyển đổi vào trình soạn thảo Word, sau đó chuyển đến trình xem HTML bằng cách sử dụng các tab lớn ở đầu trang để tạo mã.

Dọn sạch các đánh dấu bẩn bằng một nút lớn thực hiện các tùy chọn đang hoạt động (đã chọn) trong danh sách. Bạn cũng có thể áp dụng từng chức năng này bằng biểu tượng CLEAN.

Các vấn đề về chuyển đổi có thể được giải quyết dễ dàng bằng trình chuyển đổi HTML trực tuyến của chúng tôi

Vấn đề chuyển word sang html có lẽ đã luôn tồn tại cùng với Microsoft Word. Một số lượng lớn các kiểu được gán cho văn bản, chẳng hạn như mso-spacerun:yes, và các lớp, chẳng hạn như MsoNormal, cũng như sự lộn xộn của tất cả các loại span style="font-size:10.0pt" làm lộn xộn mã rất nhiều. Và chúng thường làm gián đoạn các kiểu gốc được chỉ định trong trang web. Nếu bạn vẫn có thể xử lý văn bản đơn giản bằng cách chèn văn bản thông qua nút "Chỉ chèn văn bản" của trình soạn thảo thì phương pháp này sẽ không hoạt động với bảng. Trình chuyển đổi của chúng tôi có thể dễ dàng xóa mọi nhận xét và kiểu không cần thiết khỏi tệp html trong tương lai, chỉ bằng cách nhấp vào nút.


Làm sạch trực tuyến HTML khỏi các kiểu CSS không cần thiết
  • Xóa mọi kiểu không cần thiết khỏi tất cả văn bản hoặc một đoạn đã chọn
  • Chúng tôi xóa các mã thụt lề, ký hiệu và mã Unicode khác không cần thiết
  • Làm sạch mã khỏi khoảng trắng thừa và thẻ trùng lặp
  • Nếu cần, hãy xóa hoàn toàn đánh dấu HTML.

Chuyển đổi các tệp Word, Excel, TxT thành mã nguồn HTML sạch. Không có các kiểu và nhận xét không cần thiết để chèn trực tiếp, chính xác vào các trang của trang web.

Các định dạng được hỗ trợ để chuyển đổi trực tuyến:

  • 97–2004 và mới hơn DOC sang HTML, DOCX sang HTML;
  • XLS sang HTML, XLSX sang HTML;
  • PPT sang HTML, PPTX sang HTML;
  • TXT sang HTML và nhiều định dạng khác.

Một cách sử dụng hữu ích khác của dịch vụ, thay vì mất hàng giờ để tạo bảng bằng HTML, hãy thực hiện trong 15 phút trong Excel hoặc Word và chuyển đổi nó thành mã HTML đẹp, rõ ràng để chèn vào trang web.

Xin chào!

Khi viết trình soạn thảo WYSIWYG của riêng mình, tôi gặp phải sự cố khi sao chép văn bản từ Word. Thực tế có ba vấn đề:

  • Word chèn nhiều mã html rác cần dọn dẹp
  • Vì lý do nào đó, Word sử dụng đoạn văn thay vì thẻ UL và LI để trình bày danh sách
  • Thực ra làm sao để xác định văn bản chèn vào là chèn từ Word.
Nói chung, để giải quyết những vấn đề này, một plugin jquery đã được viết, mã nguồn đầy đủ của plugin này có ở cuối bài viết. Ví dụ sử dụng:

$('#editor'). msword_html_filter();
Plugin được treo trên một sự kiện gõ phím và kiểm tra xem mã nguồn bên trong trình soạn thảo có được dán từ Word hay không; nếu có thì chức năng dọn dẹp sẽ được khởi chạy. Trong html kết quả, mọi thứ có thể được thêm vào - các khoảng trắng, thuộc tính không ngắt phong cáchcăn chỉnh, thẻ nhịp, Tất cả Mso-lớp, đoạn văn trống.

Chi tiết thực hiện theo phần cắt giảm.

Hầu hết các thông số chính quy được sử dụng đều được lấy từ TinyMCE.

Cách xác định xem một dòng có chứa mã html được chèn từ Word hay không:

Nếu (/class="?Mso|style="[^"]*\bmso-|style="[^""]*\bmso-|w:WordDocument/i.test(content)) ( ... )

Chức năng làm sạch mã (một đối tượng soạn thảo jquery được truyền cho hàm):

Hàm word_filter(editor)( var content = editor.html(); // Chú thích từ như chú thích có điều kiện, v.v. content = content.replace(/<(!|script[^>]*>.*?<\/script(?=[>\s])|\/?(\?xml(:\w+)?|img|meta|link|style|\w:\w+)(?=[\s\/>]))[^>]* >>gi, ""); // Chuyển thành vào trong <(\/?)s>/gi,"<$1strike> ___ ([\s\u00a0]*)<\/span>/gi, function(str, dấu cách) ( return (spaces.length > "; if (/^\s*\w+\./.test(txt)) ( varmatch = /()\./.exec(txt ); if (khớp) ( var start = ParseInt(matches, 10); list_tag = start>1 ? "" : ""; )else( list_tag = ""; ) ) if(cur_level> " + $(this).html() + "") $(this).remove(); Last_level = cur_level; )else( Last_level = 0; ) )) $("", editor).removeAttr("style"); $("", editor).removeAttr( "align"); $("span", editor).replaceWith(function() (return $(this).contents();)); $("span:empty", editor).remove(); $( "", editor).removeAttr("class"); $("p:empty", editor).remove(); )

Toàn bộ văn bản nguồn của plugin nằm ở phần spoiler, hãy lưu vào một tệp jquery.msword_html_filter.js

văn bản nguồn plugin

(function($) ( $.fn.msword_html_filter = function(options) ( var settings = $.extend((), options); function word_filter(editor)( var content = editor.html(); // Lời bình luận như thế nào nhận xét có điều kiện, v.v. content = content.replace(//gi, ""); // Xóa nhận xét, tập lệnh (ví dụ: msoShowComment), thẻ XML, nội dung VML, // thẻ không gian tên MS Office và một số thẻ khác content = content.replace(/<(!|script[^>]*>.*?<\/script(?=[>\s])|\/?(\?xml(:\w+)?|img|meta|link|style|\w:\w+)(?=[\s\/>]))[^>]* >>gi, ""); // Chuyển thành vào trong đối với nội dung dòng mặc dù = content.replace(/<(\/?)s>/gi,"<$1strike>"); // Thay thế nbsp entites thành char vì nó dễ xử lý hơn //content = content.replace(/ /gi, "\u00a0"); nội dung = content.replace(/ /gi, " "); // Chuyển thành ___ tới chuỗi các khoảng trắng xen kẽ // ngắt/không ngắt có cùng độ dài content = content.replace(/ ([\s\u00a0]*)<\/span>/gi, function(str, dấu cách) ( return (spaces.length > 0) ? space.replace(/./, " ").slice(Math.floor(spaces.length/2)).split("") .join("\u00a0") : ""; )); editor.html(nội dung); // Phân tích mức độ thụt lề danh sách cho các danh sách $("p", editor).each(function())( var str = $(this).attr("style"); varmatch = /mso-list:\w+ \ w+(+)/.exec(str); if (khớp) ( $(this).data("_listLevel", parpsInt(matches, 10)); ) )); // Phân tích cú pháp danh sách var Last_level=0; var pnt = null; $("p", editor).each(function())( var cur_level = $(this).data("_listLevel"); if(cur_level != unfined)( var txt = $(this).text() ; var list_tag = ""; if (/^\s*\w+\./.test(txt)) ( varmatch = /()\./.exec(txt); if (khớp) ( var start = parsInt ( trận đấu, 10); list_tag = start>1 ? "" : ""; )else( list_tag = ""; ) ) if(cur_level>last_level)( if(last_level==0)( $(this). list_tag ); pnt = $(this).prev(); )else( pnt = $(list_tag).appendTo(pnt); ) ) if(cur_level " + $(this).html() + "") $(this).remove(); Last_level = cur_level; )else( Last_level = 0; ) )) $("", editor).removeAttr("style"); $("", editor).removeAttr( "align"); $("span", editor).replaceWith(function() (return $(this).contents();)); $("span:empty", editor).remove(); $( "", editor).removeAttr("class"); $("p:empty", editor).remove(); ) trả về this.each(function() ( $(this).on("keyup", function ()( var content = $(this).html(); if (/class="?Mso|style="[^"]*\bmso-|style="[^""]*\bmso-|w :WordDocument/i.test(content)) ( word_filter($(this)); ) )); )); ); ))(jQuery)


Hiệu suất chỉ được thử nghiệm trong Firefox mới nhất.

Cleaner là dịch vụ dọn dẹp các thẻ khỏi "rác" còn sót lại trong tài liệu sau khi lưu trang ở định dạng từ chương trình.

Trước đây tôi đã viết một plugin tương tự nhưng làm vội vàng, bây giờ cơ chế đã được viết lại hoàn toàn.

Việc làm sạch mã xảy ra bằng cách tìm kiếm trong dòng đã nhập mà từ đó một dòng mới được hình thành, chứa "sạch". Plugin xóa hoàn toàn mọi thứ khỏi thẻ, bao gồm cả . Trong các thẻ không ghép đôi, ký hiệu / (dấu gạch chéo) được chèn vào. Các thẻ trống sẽ bị xóa, ví dụ: cấu trúc sẽ bị xóa vì nó không chứa gì.

Trình dọn dẹp html hoạt động như thế nào?

Có hai cách:

  1. Trong MS Word, chọn dữ liệu bạn muốn xóa, để chọn tất cả, nhấn Ctrl + A. Dán văn bản đã sao chép vào trường bên dưới (phải chọn tab “Dán dữ liệu MS Office”), nhấp vào nút “Hoàn tất”.
  2. Trước khi tối ưu hóa mã, chọn “Save as…” trong Word, sau đó chọn Loại tệp “Trang web có bộ lọc”, sau đó mở tệp đã lưu trong trình soạn thảo văn bản, sao chép mã và dán vào trường bên dưới (mục Phải chọn tab “Chèn HTML” "), nhấp vào nút "Xong".

Kết quả là bạn sẽ nhận được mã html nguyên sơ.
Các thuộc tính sau vẫn được giữ nguyên:

"colspan", "rowspan", "href", "src", "type", "value", "lang", "tabindex", "title", "code", "alt", "target", "dir ", "span", "hành động", "phương thức"

Loại bỏ các đánh dấu bẩn của bạn bằng Trình dọn dẹp HTML trực tuyến miễn phí. Rất dễ dàng để soạn, chỉnh sửa, định dạng và thu nhỏ mã web bằng công cụ trực tuyến này. Chuyển đổi tài liệu Word thành HTML gọn gàng và bất kỳ tài liệu trực quan nào khác như Excel, PDF, Google Docs, v.v. Việc làm việc với hai trình chỉnh sửa nguồn và hình ảnh đính kèm cực kỳ đơn giản và hiệu quả, phản hồi ngay lập tức các hành động của bạn.

HTML Cleaner được trang bị nhiều tính năng hữu ích giúp việc dọn dẹp và chỉnh sửa HTML trở nên dễ dàng nhất có thể. Chỉ cần dán mã của bạn vào vùng văn bản, thiết lập tùy chọn dọn dẹp và nhấn nút HTML sạch cái nút. Nó có thể xử lý bất kỳ tài liệu nào được tạo bằng Microsoft Excel, PowerPoint, tài liệu Google hoặc bất kỳ trình soạn thảo nào khác. Nó giúp bạn dễ dàng loại bỏ tất cả các kiểu nội tuyến và các mã không cần thiết được thêm vào bởi Microsoft Word hoặc các trình soạn thảo WYSIWYG khác. Công cụ soạn thảo HTML này rất hữu ích khi bạn di chuyển nội dung từ trang web này sang trang web khác và bạn muốn xóa tất cả các lớp và ID lạ mà trang nguồn áp dụng. Sử dụng công cụ tìm và thay thế cho các lệnh tùy chỉnh của bạn. Trình tạo văn bản vô nghĩa cho phép bạn dễ dàng thêm văn bản giả vào trình chỉnh sửa.

Ở đầu trang, bạn có thể thấy trình soạn thảo trực quan và trình soạn thảo mã nguồn nằm cạnh nhau. Bất cứ điều gì bạn sửa đổi, những thay đổi sẽ được phản ánh theo thời gian thực. Trình chỉnh sửa HTML trực quan cho phép người mới bắt đầu dễ dàng soạn nội dung của họ giống như khi sử dụng bất kỳ chương trình xử lý văn bản nào khác, trong khi ở bên phải, trình chỉnh sửa nguồn có đánh dấu mã được đánh dấu sẽ giúp người dùng nâng cao điều chỉnh mã. Điều này làm cho chương trình trực tuyến này trở thành một công cụ tuyệt vời để học viết mã HTML.

Chuyển đổi tài liệu Word sang HTML sạch

Để xuất bản trực tuyến các tệp PDF, Microsoft Word, Excel, PowerPoint hoặc bất kỳ tài liệu nào khác được soạn bằng các chương trình soạn thảo văn bản khác nhau hoặc chỉ để sao chép nội dung được sao chép từ một trang web khác, hãy dán nội dung được định dạng vào trình chỉnh sửa trực quan. Nguồn HTML của tài liệu cũng sẽ hiển thị ngay lập tức trong trình chỉnh sửa nguồn. Thanh điều khiển phía trên trình soạn thảo WYSIWYG kiểm soát trường này trong khi tất cả các cài đặt dọn dẹp nguồn khác đều dùng để chỉnh sửa mã nguồn. Nhấn vào HTML sạch sau khi thiết lập các tùy chọn làm sạch. Sao chép mã đã được làm sạch và xuất bản nó trên trang web của bạn.

Không có gì đảm bảo rằng chương trình sẽ sửa tất cả các lỗi trong mã của bạn theo cách bạn muốn, vì vậy vui lòng thử nhập HTML hợp lệ về mặt cú pháp.

Chuyển đổi các bảng HTML thành các phần tử div có cấu trúc bằng cách kích hoạt hộp kiểm tương ứng.

Làm sạch mã HTML khỏi thẻ Microsoft Word (2000-2007)?

Trước đây, các nhà thiết kế web thường xây dựng trang web của họ bằng cách sử dụng các bảng để sắp xếp bố cục trang, nhưng trong thời đại các bảng thiết kế web đáp ứng đã lỗi thời và DIV đang thay thế chúng. Công cụ trực tuyến này giúp bạn biến các bảng của mình thành các phần tử div có cấu trúc chỉ bằng một vài cú nhấp chuột đơn giản.

Bạn có thể làm cho mã nguồn của mình dễ đọc hơn bằng cách sắp xếp thứ bậc các tab trong chế độ xem dạng cây.

Trở thành một thành viên

Trang web này là một công cụ đầy đủ chức năng để dọn dẹp và soạn mã HTML nhưng bạn có thể mua tư cách thành viên HTML G và truy cập nhiều tính năng chuyên nghiệp hơn. Khi sử dụng phiên bản miễn phí của HTML Cleaner, bạn đồng ý đưa các liên kết vào tài liệu đã chỉnh sửa. Công cụ dọn dẹp này có thể thêm liên kết quảng cáo của bên thứ ba vào cuối tài liệu đã được xóa và bạn cần giữ nguyên mã này miễn là bạn sử dụng phiên bản miễn phí.